文章基本信息

标题：価値システムに基づく他者行為観察と自己行動学習の循環的発達
本地全文：下载
作者：高橋泰岳 ; 田村佳宏 ; 浅田稔等
期刊名称：知能と情報
印刷版ISSN：1347-7986
电子版ISSN：1881-7203
出版年度：2009
卷号：21
期号：5
页码：640-652
DOI：10.3156/jsoft.21.640
出版社：Japan Society for Fuzzy Theory and Intelligent Informatics
摘要：
本論文では，強化学習における状態価値に基づいた行為獲得・他者行為認識の循環により，行為理解が効率的に安定して発達する手法を提案する．自身の試行錯誤の経験のみによる学習では獲得する行為が複雑になればなるほど多大な探索空間や莫大な学習時間が必要になる問題が強化学習による行為獲得には存在する．他者行為を観察し学習対象の行為の状態価値を推定し，それを自己の行動学習にフィードバックすることで行動学習を加速可能である．しかし，観測した他者行為を自己の行動学習に利用するためには，他者がどの行為を行っているのかを認識しなくてはならない．一方で，自己の行為の状態価値を基に他者の行為認識をロバストに行えることが先行研究によって示されている．行動学習と他者行為認識を交互に繰り返すことで，行為獲得を通した行為理解が効率的に安定して進められる．本手法の有効性を検証するため，RoboCup中型機リーグに出場しているロボットを想定したシミュレータ，及び実機に本手法を適用し，本手法の有効性を示す．
关键词：価値システム; 行為理解; 模倣; 強化学習