近年,被災地や宇宙などの危険な環境でロボットが活躍している.しかし,この様な環境下では突然ロボットが危険な状態に陥り,人からの危険回避命令が間に合わない場合がある.したがって,ロボットには自律的に危険回避行動を獲得することが求められる.これを実現する手法として強化学習を用いることが考えられる.本稿では,危険を回避するための新しい強化学習の枠組みとして,成功確率に基づく強化学習(Probability based Reinforcement Learning)を提案し,ロボットの行動獲得に適用する.