第8回強化学習アーキテクチャ勉強会

2017/11/14(火)18:45 〜 20:35 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group : https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack : https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg

スケジュール

18:50 〜18:55 オープニング
18:55〜19:45 講演：論文紹介 Trust Region Policy OptimizationとGeneralized Advantage Estimationについて（吉田岳人）発表35分、質疑応答15分
19:45〜20:35 講演：論文紹介 Generative Adversarial Imitation Learning（中田勇介）発表35分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者1：吉田岳人

タイトル： Trust Region Policy OptimizationとGeneralized Advantage Estimationについて
アブストラクト：連続行動空間に対応でき、オンポリシーの手法として高い安定性と（オンポリシーの中では）高いdata efficiencyを誇る手法であり、幅広く使われているTrust Region Policy Optimizationについて解説する。また、TRPOとよく同時使われるGAEについても解説する。非線形最適化手法である信頼領域法から始め最適化数学での立ち位置が分かるように解説する予定。同日の中田君によるGenerative Adeversarial Imitation Learningにも使われている手法のため接続がよくなるように分かりやすく説明出来たらと思います。
参考文献：
[1]Schulman, John, et al. "Trust region policy optimization." Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 2015.http://proceedings.mlr.press/v37/schulman15.pdf
[2]Schulman, John, et al. "High-dimensional continuous control using generalized advantage estimation." arXiv preprint arXiv:1506.02438 (2015).https://arxiv.org/pdf/1506.02438.pdf

発表者2：中田勇介

タイトル： Generative Adversarial Imitation Learning
アブストラクト：模倣学習の目的は，特定のタスクの解法を知るエージェント（エキスパート）の意思決定データに基づく，エキスパートの方策の学習である．模倣学習の代表的なアプローチには，教師あり学習と逆強化学習がある．エキスパートが最小化するコストを推定する逆強化学習は，教師あり学習と比較して高い精度，少ないエキスパートのデータで学習できることが知られている．しかし，教師あり学習が試行錯誤を必要としない一方で，逆強化学習はコストを推定する過程で強化学習を複数回解くため多くの試行錯誤を要する．Generative Adversarial Imitation Learning(GAIL)は，逆強化学習によって得られる方策をコストを推定することなく直接学習する手法である．そのため，既存の逆強化学習と比較して少ない試行錯誤で学習でき，大規模状態行動空間にも適用可能である．今回の発表では，GAILのアルゴリズムが導出される過程を論文の流れに沿って説明する．特に重要な命題については証明を詳細に説明し，逆強化学習における理論的な貢献にも言及する．
参考文献：
[1]Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning." Advances in Neural Information Processing Systems. 2016. https://arxiv.org/abs/1606.03476