第26回強化学習アーキテクチャ勉強会

2018/10/16(火)18:45 〜 19:45 開催

ブックマーク

#機械学習, #アーキテクチャ

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

スケジュール

18:50 〜18:55 オープニング
18:55〜19:45 研究紹介：RGoal Architecture:再帰的にサブゴールを設定できる階層型強化学習アーキテクチャ

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：一杉裕志（産総研）

タイトル：RGoal Architecture:再帰的にサブゴールを設定できる階層型強化学習アーキテクチャ
アブストラクト：
人間は何か目的を達成するために適切なサブゴールを設定できる。さらに必要に応じてそのサブゴールを再帰的に設定することができ、その再帰の深さには制約がないように見える。この振る舞いにヒントを得た階層型強化学習の新しいアーキテクチャとして、RGoal アーキテクチャを提案する。アルゴリズムは、拡張状態行動空間上の MDP を解く形で定式化される。行動価値関数は、価値関数分解により複数のタスク間で共有可能になり、マルチタスク環境での学習を効率化する。「思考モード」における振る舞いは一種のモデルベース強化学習であり、学習済みのタスクを組み合わせることで、一度も経験したことのないタスクを少ない試行錯誤で、場合によってはゼロショットで解くことができる。アルゴリズムはスタックを用いず、フラットなテーブルとシンプルな操作の繰り返しで実現される。今後このアーキテクチャを拡張し、脳の前頭前野周辺の情報処理機構のモデルを構築する。
参考文献：
一杉裕志、高橋直人、中田秀基、佐野崇「RGoal Architecture:再帰的にサブゴールを設定できる階層型強化学習アーキテクチャ」第9回人工知能学会汎用人工知能研究会(SIG-AGI), 2018 https://jsai.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=9429
関連資料：
発表に使う予定のスライド：https://staff.aist.go.jp/y-ichisugi/besom/20180830RGoal.pdf