2018/02/13(火)18:45 〜 20:25

第12回強化学習アーキテクチャ勉強会

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group : https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack : https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg

スケジュール

18:50 〜18:55 オープニング
18:55〜20:25 講演：DQNからRainbowまで〜深層強化学習の最新動向〜（奥村純）発表75分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：奥村純 (DeNA)

タイトル： DQNからRainbowまで〜深層強化学習の最新動向〜
アブストラクト：近年Atariや囲碁、StarCraftに代表されるような様々なゲームが、深層強化学習の進展等によって高い成績を出せるようになってきている。これらのゲームタスクにおいて機運が変わった一つのきっかけはDeep Q Network (DQN) の登場であり、その後もDQNは様々な改良が加えられながらベンチマークタスクのSotAが更新され続けている。この講演では、2017年に提案された"Rainbow"アルゴリズムを元に、DQN以前・以後に提案されてきたいくつかの深層強化学習アルゴリズムを概観する。また、これらのアルゴリズムは、総合評価として"全タイトルのパフォーマンス統計"が参照されているためにSotAであることが目立ちがちであるが、ここでは各アルゴリズムに対して議論を重ねることでなるべく批判的に内容を読んでいきたい。本講演では、model-freeかつoff-policyなアルゴリズムのみに着目し、タスクとしてはAtariを中心に取り上げる予定である。
参考文献
[1] Riedmiller, Martin. "Neural fitted Q iteration–first experiences with a data efficient neural reinforcement learning method". In: European Conference on Machine Learning. Springer, Berlin, Heidelberg, 2005. p. 317-328.
[2] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.
[3] Van Hasselt, Hado, Arthur Guez, and David Silver. "Deep Reinforcement Learning with Double Q-Learning." AAAI. Vol. 16. 2016.
[4] Schaul, Tom, et al. "Prioritized experience replay." arXiv preprint arXiv:1511.05952 (2015).
[5] Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015).
[6] Sutton, Richard S., and Andrew G. Barto. "Reinforcement learning: An introduction." Vol. 1. No. 1. Cambridge: MIT press, 1998.
[7] Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015).
[8] Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." arXiv preprint arXiv:1511.06581 (2015).
[9] Hessel, Matteo, et al. "Rainbow: Combining Improvements in Deep Reinforcement Learning." arXiv preprint arXiv:1710.02298 (2017).