第19回強化学習アーキテクチャ勉強会

2018/06/26(火)18:45 〜 20:35 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group : https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack : https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg

スケジュール

18:50 〜18:55 オープニング
18:55〜19:45 論文紹介：inverse reinforcement learning with occlusion 発表35分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者1：浪越圭一

タイトル：論文紹介 inverse reinforcement learning with occlusion
アブストラクト：強化学習における報酬設計法や行動主体のモデリング法として，エキスパートの行動軌跡からその報酬関数を推定する逆強化学習が注目されている．一般的な逆強化学習問題では，エキスパートの軌跡はすべて観測可能であることを前提とする．しかし，特定の観測点からエキスパートを観測する場合，遮蔽物により軌跡の一部が隠れる(Occulusion)可能性がある．そこで本発表では，隠れ(Occlusion)部分を潜在変数として扱い，EMアルゴリズムにより報酬を推定する逆強化学習法を紹介する．
参考文献：
[1]Bogert, Kenneth, et al. "Expectation-maximization for inverse reinforcement learning with hidden data." Proceedings of the 2016 International Conference on Autonomous Agents & Multiagent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2016.