第15回強化学習アーキテクチャ勉強会

2018/03/28(水)18:45 〜 20:00 開催

ブックマーク

#アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group : https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack : https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg

スケジュール

18:50 〜18:55 オープニング
18:55〜19:40 講演：経験強化型学習Profit Sharingを利用したdeep Q-networkの学習加速化について発表・質疑応答45分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：宮崎和光（独立行政法人大学改革支援・学位授与機構）、小玉直樹（明治大学）
タイトル：経験強化型学習Profit Sharingを利用したdeep Q-networkの学習加速化について

(参考： https://goo.gl/d9k4Zi )

アブストラクト：近年，Deep Q-Network(DQN)やAlphaGoなど，深層学習と強化学習を融合させた深層強化学習が注目を集めている．そこでは，強化学習手法としてQ-learningを用いていることもあり，戦略の学習には膨大な量の試行錯誤回数が必要となる．それに対し講演者らは，強化学習における試行錯誤回数の低減を指向した手法として経験強化型学習Exploitation-oriented Learning (XoL)を提唱している．本講演では，XoLについての簡単な解説を行った後に，XoLの一手法であるProfit Sharing(PS) とDQNとを組み合わせた手法であるDQNwithPSを紹介する.しかし，現在，DQNwithPSによるPS学習は、ニューラルネットワークの更新に悪影響を与える場合があることがわかっている．そこで本講演では，DQNwithPSのPS学習に用いられる目標値が行動価値関数よりも小さい場合，誤差関数を0とするLearning Acceleration DQN(LADQN)を紹介する．LADQNが，Atari2600のゲームの中のBreakout及びEnduroに対して，DQNやDQNwithPSよりも特に優れた結果を与えることを示す．
参考文献：

[1] 小玉直樹，宮崎和光，小林博明，経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証第45回知能システムシンポジウム講演論文集 (2018). http://www.sice.or.jp/org/i-sys/is45/180224_is45_program_web.html

[2] Kazuteru Miyazaki, Exploitation-Oriented Learning with Deep Learning - Introducing Profit Sharing to a Deep Q-Network -, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.21, No.5, pp.849-855 (2017). https://www.fujipress.jp/jaciii/jc/jacii002100050849/

[3] Miyazaki, K. and Kobayashi, S., Exploitation-oriented Learning PS-r#, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.13, No.6, pp.624-630 (2009). https://www.fujipress.jp/jaciii/jc/jacii001300060624/

[4] 宮崎和光，山村雅幸，小林重信，強化学習における報酬割当ての理論的考察，人工知能学会誌，Vol.9, No.4, pp.580-587 (1994). https://goo.gl/zPsDHc