神経生理学の分野において,ある行動を自身が再現する際だけでなく,同じ行動を他者が再現した際にも発火するミラーニューロンの存在が示された.このミラーニューロン・システムのコンセプトは非常に興味深く,行為の獲得と他者行為に認識は密接に関係があることを示している.つまり,行為学習器は行動獲得のみならず,他者行為の認識・理解・推定にも利用できる可能性がある.そこで,複数の行為を学習するだけではなく,観察者の学習済みの行為の強化学習における状態価値を用いることにより他者行為の認識・理解を可能にする手法を提案する.状態価値は将来に渡って得られるであろう報酬の減衰和であり,目標状態のみで正の報酬を得られる場合,任意の意図に従って行動する際には報酬を得られる目標状態に向かうため,この状態価値が向上する.つまり,同じ目的をもった行為を実行している限り,動作系列が異なっても状態価値の値は増加していく傾向にあるので,この傾向から他者行為を認識できる.また,状態価値の変化の傾向は,観測状態の相対的な変化から比較的容易に得ることが可能であるので,観察者と行為実行者の視点の差異を吸収可能であると期待できる.本論文ではロボットのサッカーを例題とし,提案手法の有効性を検証する.