論文概要:L*a*b*表色系を用いて得られた口唇の形状および発話に伴う動き特徴は,個人識別や非接触インタフェースの有用な入力情報となること,口唇の動きは発話されたコマンドを識別する特徴量として有効であることが明らかとなっている.しかしながら,L*a*b*表色系に着目した従来技術は,発話動画像における発話区間の検出をオペレータの目視で行っており,自動推定を行うまでには至っていない.そこで本論文は,個人識別ならびに発話認識などのインタフェースにおける発話区間の自動推定を目的とし,発話動画像の連続したフレームから発話フレームを自動検出する手法を提案する.提案手法は,発話時の口唇画像における L*a*b*表色系の色彩情報および口唇形状の時系列変化を特徴量として用いる手法であり,次の3つのステップから構成される.はじめに,発話時の時系列顔画像から口唇を抽出する.次に,口唇の垂線上におけるL*およびa*の推移に着目して口裂(口を閉じたときの上唇と下唇の境界)の有無を調べ,各フレームにおける口の開閉状態を判定する.最後に,3フレーム間における口唇形状の時系列変化から発音の過程で閉口状態となった発話フレームを判定する.5つの母音全てを含む人名を発話内容として,被験者5名による実験を行った結果,約99.2%の精度で発話フレーム検出が可能であることが明らかとなった.