第15回 強化学習アーキテクチャ勉強会

2018/03/28(水)18:45 〜 20:00 開催
ブックマーク

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:40 講演:経験強化型学習Profit Sharingを利用したdeep Q-networkの学習加速化について 発表・質疑応答45分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

  • 発表者: 宮崎和光(独立行政法人 大学改革支援・学位授与機構)、小玉直樹(明治大学)

  • タイトル: 経験強化型学習Profit Sharingを利用したdeep Q-networkの学習加速化について

(参考: https://goo.gl/d9k4Zi )

  • アブストラクト: 近年,Deep Q-Network(DQN)やAlphaGoなど,深層学習と強化学習を融合させた深層強化学習が注目を集めている.そこでは,強化学習手法としてQ-learningを用いていることもあり,戦略の学習には膨大な量の試行錯誤回数が必要となる.それに対し講演者らは,強化学習における試行錯誤回数の低減を指向した手法として経験強化型学習Exploitation-oriented Learning (XoL)を提唱している.本講演では,XoLについての簡単な解説を行った後に,XoLの一手法であるProfit Sharing(PS) とDQNとを組み合わせた手法であるDQNwithPSを紹介する.しかし,現在,DQNwithPSによるPS学習は、ニューラルネットワークの更新に悪影響を与える場合があることがわかっている.そこで本講演では,DQNwithPSのPS学習に用いられる目標値が行動価値関数よりも小さい場合,誤差関数を0とするLearning Acceleration DQN(LADQN)を紹介する.LADQNが,Atari2600のゲームの中のBreakout及びEnduroに対して,DQNやDQNwithPSよりも特に優れた結果を与えることを示す.

  • 参考文献 :

[1] 小玉直樹,宮崎和光,小林博明, 経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証 第45回知能システムシンポジウム講演論文集 (2018). http://www.sice.or.jp/org/i-sys/is45/180224_is45_program_web.html

[2] Kazuteru Miyazaki, Exploitation-Oriented Learning with Deep Learning - Introducing Profit Sharing to a Deep Q-Network -, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.21, No.5, pp.849-855 (2017). https://www.fujipress.jp/jaciii/jc/jacii002100050849/

[3] Miyazaki, K. and Kobayashi, S., Exploitation-oriented Learning PS-r#, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.13, No.6, pp.624-630 (2009). https://www.fujipress.jp/jaciii/jc/jacii001300060624/

[4] 宮崎和光,山村雅幸,小林重信, 強化学習における報酬割当ての理論的考察, 人工知能学会誌,Vol.9, No.4, pp.580-587 (1994). https://goo.gl/zPsDHc

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
情報提供元ページ(connpass)へ

新規会員登録

このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。



※ ソーシャルアカウントで登録するとログインが簡単に行えます。

※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。

関連するイベント