首页    期刊浏览 2024年12月05日 星期四
登录注册

文章基本信息

  • 标题:Discounted UCB1-tunedのQ学習への適用
  • 本地全文:下载
  • 作者:野津 亮 ; 本多 克宏
  • 期刊名称:知能と情報
  • 印刷版ISSN:1347-7986
  • 电子版ISSN:1881-7203
  • 出版年度:2014
  • 卷号:26
  • 期号:6
  • 页码:913-923
  • DOI:10.3156/jsoft.26.913
  • 出版社:Japan Society for Fuzzy Theory and Intelligent Informatics
  • 摘要:

    本論文ではQ学習に,重み付き価値推定値と重み付き分散を用いるDiscounted UCB1-tuned を行動選択政策として組み込むためのアルゴリズムを提案し,その性能を実験によって評価した.Discounted UCB1-tunedは価値推定値の探索と開拓を最適化した手法の一つであり,一般的によく用いられるε-greedy手法などよりも性能が良いことで知られている.まず,初期値と学習率に関するいくつかの非定常N本腕バンディット問題の予備実験を通してその性能を比較し,その性能を確認する.そして,価値推定値の更新がない行動,すべて更新している場合は価値推定値の更新した部分で最もUCB値の高い行動を選択するというアプローチを提案法とし,連続空間ゴール探索問題を題材とした従来法と提案手法の数値実験結果を比較,検討する.

  • 关键词:強化学習; Discounted UCB1-tuned; Q 学習; 知的エージェント
国家哲学社会科学文献中心版权所有