第30回強化学習アーキテクチャ勉強会

2018/12/18(火)18:45 〜 19:45 開催

ブックマーク

#アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

スケジュール

18:50 〜18:55 オープニング
18:55〜19:45 脳のようにエビデンスを蓄積する強化学習モデルの紹介と視覚タスクへの応用

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：太田晋（ドワンゴ人工知能研究所/東京工科大学）

タイトル：脳のようにエビデンスを蓄積する強化学習モデルの紹介と視覚タスクへの応用
アブストラクト
強化学習エージェントを現実世界に適用する場合には様々な不確実性に対処する必要がある. 例えば, ノイズを含んだ情報, 限られたセンサー能力, 環境そのものが内包する不確実性などである. こうした状況においては, 意思決定を遅らせて適切にエビデンス(証拠)を蓄積(アキュムレート)してから意思決定を行ったほうが良い場合も多い. 脳においては, 大脳基底核でこうした意思決定を行っており[2], それを参考とする形でエビデンスを蓄積する強化学習モデルが提案されている[1]. このモデルでは, エージェントは意思決定を行うために, まずそれぞれのアクションに対応するエビデンスをアキュムレータに蓄積していく. その後, エビデンスが十分に蓄積され意思決定に確信が持てるようになったら, 環境に対してアクションを実行する. このモデルは, 既存の強化学習アーキテクチャの出力レイヤの一部を修正することで, 様々なタイプの強化学習モデル(表形式/深層強化学習, on-policy/off-policy )に対してエラー・バックプロパゲーションにより実装可能である. 発表では, まずアキュムレータモデルの紹介を行い, 既存手法(A2C-RNN)では学習困難な “モード推定タスク“[3] において, このモデルがほぼ最適なパフォーマンスを達成したことを示す. 次に, 古典的な視覚タスクの一種である Random Dot Motion Discrimination [4][5]に対してこのモデルを適用した結果を報告する.
参考文献
[1] Akshat Agarwal and Abhinau Kumar V and Kyle Dunovan and Erik Peterson and Timothy Verstynen and Katia Sycara. Better Safe than Sorry: Evidence Accumulation Allows for Safe Reinforcement Learning. arXiv preprint arXiv:1809.09147. 2018.　https://arxiv.org/abs/1809.09147
[2] Dunovan, K., and Verstynen, T. Believer-skeptic meets actor-critic: Rethinking the role of basal ganglia pathways during decision-making and reinforcement learning. Frontiers in neuroscience 10:106. 2016. https://doi.org/10.3389/fnins.2016.00106
[3] Mode Estimation Task. https://github.com/susumuota/gym-modeestimation
[4] Joel Z. Leibo and Cyprien de Masson d’Autume and Daniel Zoran and David Amos and Charles Beattie and Keith Anderson and Antonio García Castañeda and Manuel Sanchez and Simon Green and Audrunas Gruslys and Shane Legg and Demis Hassabis and Matthew M. Botvinick. Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents. arXiv preprint arXiv:1801.08116. 2018. https://arxiv.org/abs/1801.08116
[5] Random Dot Motion Discrimination (Human play). https://youtu.be/IZtDkryWedY