第11回強化学習アーキテクチャ勉強会

2018/01/16(火)18:45 〜 20:35 開催

ブックマーク

アルゴリズム, 機械学習, アーキテクチャ

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group : https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack : https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg

スケジュール

18:50 〜18:55 オープニング
18:55〜19:55 講演：逆強化学習×ノンパラメトリックベイズ（石川翔太）発表45分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：石川翔太 (千葉大学)

タイトル：逆強化学習×ノンパラメトリックベイズ
アブストラクト：逆強化学習はエキスパートデータを所与として，そのエキスパートが受け取っていたとされる報酬関数を推定する手法である．推定した報酬は二つの用途に用いられる．一つ目は推定した報酬にもとづいて強化学習を行い，エキスパートの方策を学習する「模倣学習」，二つ目は推定した報酬をもとにエキスパートがどのような目的を持って行動したのかを理解する「行動解析」である．本発表では二つ目の「行動解析」に対する有効なアプローチであるノンパラメトリックベイズを用いた逆強化学習について説明する．基礎となるベイジアン逆強化学習ではエキスパートがどのようなタスクを解いていたのかなどの事前知識を報酬の事前確率として導入し，エキスパートデータに適合する報酬の事後確率を計算する手法である．これをノンパラメトリック化することにより，導入できる事前知識の自由度を大きくできるため，より複雑な報酬の事後確率を計算することができる．紹介する手法では，迷路の途中で目的地を変更するエキスパートデータが与えられたときやエキスパートデータに複数のエキスパートが混ざっているときに，エキスパートの行動解析に有効なアプローチである．
参考文献
Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).
Choi, J., & Kim, K. E. (2013). Bayesian Nonparametric Feature Construction for Inverse Reinforcement Learning. In IJCAI International Joint Conference on Artificial Intelligence (pp. 1287–1293).
Michini, B., & P. How, J. (2012). Bayesian Nonparametric Inverse Reinforcement Learning. Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 148–163.
Choi, J., & Kim, K. E. (2012). Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward Functions. In Nips (pp. 1–9).
Surana, A., & Srivastava, K. (2014). Bayesian Nonparametric Inverse Reinforcement Learning for Switched Markov Decision Processes. In 2014 13th International Conference on Machine Learning and Applications (pp. 47–54).