本論文ではQ学習に,重み付き価値推定値と重み付き分散を用いるDiscounted UCB1-tuned を行動選択政策として組み込むためのアルゴリズムを提案し,その性能を実験によって評価した.Discounted UCB1-tunedは価値推定値の探索と開拓を最適化した手法の一つであり,一般的によく用いられるε-greedy手法などよりも性能が良いことで知られている.まず,初期値と学習率に関するいくつかの非定常N本腕バンディット問題の予備実験を通してその性能を比較し,その性能を確認する.そして,価値推定値の更新がない行動,すべて更新している場合は価値推定値の更新した部分で最もUCB値の高い行動を選択するというアプローチを提案法とし,連続空間ゴール探索問題を題材とした従来法と提案手法の数値実験結果を比較,検討する.