第51回強化学習アーキテクチャ勉強会

2020/11/02(月)19:15 〜 20:30 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場で使われはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう。こうした背景から、実践的な強化学習や、実世界で動かす強化学習（ロボット・自動運転）、強化学習を部品として組み合わせる（アーキテクチャ）、といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、こちらを御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack:
Twitter: #rlarch 勉強会のハッシュタグを作りました。コメントや質問等にご活用ください。

＝＝＝＝＝次回以降の、発表者を募集しています。＝＝＝＝＝ 希望される方は、Slackにて、幹事のどなたかにご相談下さい。幹事団：浪越圭一(keiichi namikoshi), 中田勇介(nakatayusuke), 石川翔太(ishota1991), 鈴木雅大(masa), 奥村純(jun.okumura), 山川宏(hymkw)

開催方法

zoom webinarによるオンライン開催予定です。参加リンクは後日、メール、slackでお知らせします。

スケジュール

19:15〜19:20 オープニング
19:20〜19:45 タイトル：確率的推論と行動選択（鈴木雅大・東京大学）
19:45〜20:10 タイトル：Divergence minimizationとしての行動と認識（松嶋達也・東京大学）

講演概要：

発表者：鈴木雅大（東京大学）

タイトル：確率的推論と行動選択
アブストラクト
近年、確率的推論の枠組みで、適応的な行動選択を定式化する研究が進められている。例えば、強化学習分野おいてはcontrol as inference（RL as inference）[1]やvariational RL[2][3]、神経科学・認知科学においてはactive inference[3][4]などが提案されている。本発表では、これらのフレームワークの間にどのような関係性があるのかを、それぞれを比較しつつ概観する。
参考文献
[1] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review, https://arxiv.org/abs/1805.00909
[2] Variational Policy Search via Trajectory Optimization, https://people.eecs.berkeley.edu/~svlevine/papers/vgps.pdf
[3] Maximum a Posteriori Policy Optimisation, https://arxiv.org/abs/1806.06920
[4] Hierarchical Models in the Brain, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000211
[5] The free-energy principle: a unified brain theory?, https://www.nature.com/articles/nrn2787

発表者：松嶋達也（東京大学）

タイトル：Divergence minimizationとしての行動と認識
アブストラクト
近年、Control as Inference[1]をはじめとして強化学習アルゴリズムを確率推論の観点から統一的に解釈するような議論がなされている。一方、神経科学や認知科学の観点からはFree Energy Principle[2]など関連するようなフレームワークも提案されている。本発表では、divergence minimizationの観点からこれらの議論をまとめた論文Action and Perception as Divergence Minimization[3]を紹介する。
参考文献
[1] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review, https://arxiv.org/abs/1805.00909
[2] The free energy principle for action and perception: A mathematical review, https://arxiv.org/abs/1705.09156
[3] Action and Perception as Divergence Minimization, https://arxiv.org/abs/2009.01791

イベントマナー：

参加にあたって、以下のイベントマナーを厳守してください。

強化学習アーキテクチャではイベントへの参加や登壇について、情報の共有とコミュニケーションを目的としています。イベントに参加するすべての人は下記の行動規範を守ることを求められます。すべての人にとって安全な場所を提供するため、聴講者、登壇者、主催スタッフ含めたすべての方にご協力をお願いします。

私たちは下記のような事柄に関わらずすべての人にとって安全な場を提供することに努めます。
社会的あるいは法的な性、性自認、年齢、障がい、容姿、体格、人種、民族、宗教（無宗教を含む）に対するハラスメント。
そして以下のような行為をいかなる形でも決して許容しません。
脅迫、つきまとい、ストーキング、不適切な画像、動画、録音の再生（性的な画像など）、発表や他のイベントに対する妨害行為、不適切な身体的接触、これらに限らない性的嫌がらせ。

登壇者、主催スタッフもこのポリシーの対象となります。性的な言葉や画像はいかなる発表やワークショップ、懇親会、Twitterのようなオンラインメディアにおいても不適切です。

ハラスメント行為をやめるように指示された場合、直ちに従うことが求められます。ルールを守らない方は、主催者の判断により、退場処分や今後のイベントに聴講者、登壇者、スタッフとして関わることを禁止します。