BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第51回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第51回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:797370@techplay.jp
SUMMARY:第51回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20201102T191500
DTEND;TZID=Asia/Tokyo:20201102T203000
DTSTAMP:20260510T040535Z
CREATED:20201023T141938Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/79737
 0?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場で使われはじめており、さ
 らにロボットなどにおいても今後は適用されてゆくシ
 ーンが増えてゆくでしょう。こうした背景から、実践
 的な強化学習や、実世界で動かす強化学習（ロボット
 ・自動運転）、強化学習を部品として組み合わせる（
 アーキテクチャ）、といったトピックについて重視し
 情報共有する場として強化学習アーキテクチャ勉強会
 を開始しました。\n本勉強会において積極的に議論に
 加わっていただき、今後、論文紹介などの形で貢献い
 ただけるかたの参加をお待ちしております。\n当勉強
 会の運営方針などについては、こちら を御覧ください
 。\n\nGoogle Group: https://goo.gl/xznKlY （注：KlYのIは「L」の
 小文字です）\nSlack:\nTwitter: #rlarch 勉強会のハッシュタ
 グを作りました。コメントや質問等にご活用ください
 。\n\n ＝＝＝＝＝ 次回以降の、発表者を募集していま
 す。 ＝＝＝＝＝ \n希望される方は、Slackにて、幹事の
 どなたかにご相談下さい。幹事団： 浪越圭一(keiichi nam
 ikoshi)\, 中田勇介(nakatayusuke)\, 石川翔太(ishota1991)\, 鈴木
 雅大(masa)\, 奥村純(jun.okumura)\, 山川宏(hymkw)\n開催方法\nz
 oom webinarによるオンライン開催予定です。参加リンク
 は後日、メール、slackでお知らせします。\nスケジュー
 ル\n\n19:15〜19:20  オープニング\n19:20〜19:45  タイトル：
 確率的推論と行動選択（鈴木雅大・東京大学）\n19:45〜
 20:10  タイトル：Divergence minimizationとしての行動と認識
 （松嶋達也・東京大学）\n\n講演概要：\n発表者：鈴木
 雅大（東京大学）\n\n\nタイトル：確率的推論と行動選
 択\n\n\nアブストラクト\n近年、確率的推論の枠組みで
 、適応的な行動選択を定式化する研究が進められてい
 る。例えば、強化学習分野おいてはcontrol as inference（RL
  as inference）[1]やvariational RL[2][3]、神経科学・認知科学
 においてはactive inference[3][4]などが提案されている。本
 発表では、これらのフレームワークの間にどのような
 関係性があるのかを、それぞれを比較しつつ概観する
 。\n\n参考文献  \n[1] Reinforcement Learning and Control as Probabil
 istic Inference: Tutorial and Review\, https://arxiv.org/abs/1805.00909\n
 [2] Variational Policy Search via Trajectory Optimization\, https://peopl
 e.eecs.berkeley.edu/~svlevine/papers/vgps.pdf\n[3] Maximum a Posteriori P
 olicy Optimisation\, https://arxiv.org/abs/1806.06920\n[4] Hierarchical M
 odels in the Brain\, https://journals.plos.org/ploscompbiol/article?id=10
 .1371/journal.pcbi.1000211\n[5] The free-energy principle: a unified brai
 n theory?\, https://www.nature.com/articles/nrn2787  \n\n発表者：松
 嶋達也（東京大学）\n\n\nタイトル：Divergence minimization
 としての行動と認識\n\n\nアブストラクト\n近年、Control 
 as Inference[1]をはじめとして強化学習アルゴリズムを確
 率推論の観点から統一的に解釈するような議論がなさ
 れている。一方、神経科学や認知科学の観点からはFree
  Energy Principle[2]など関連するようなフレームワークも
 提案されている。本発表では、divergence minimizationの観
 点からこれらの議論をまとめた論文Action and Perception as 
 Divergence Minimization[3]を紹介する。\n\n参考文献  \n[1] Reinf
 orcement Learning and Control as Probabilistic Inference: Tutorial and Re
 view\, https://arxiv.org/abs/1805.00909\n[2] The free energy principle fo
 r action and perception: A mathematical review\, https://arxiv.org/abs/17
 05.09156\n[3] Action and Perception as Divergence Minimization\, https://
 arxiv.org/abs/2009.01791  \n\nイベントマナー：\n参加にあた
 って、以下のイベントマナーを厳守してください。  \n
 強化学習アーキテクチャではイベントへの参加や登壇
 について、情報の共有とコミュニケーションを目的と
 しています。\nイベントに参加するすべての人は下記
 の行動規範を守ることを求められます。すべての人に
 とって安全な場所を提供するため、聴講者、登壇者、
 主催スタッフ含めたすべての方にご協力をお願いしま
 す。  \n私たちは下記のような事柄に関わらずすべての
 人にとって安全な場を提供することに努めます。\n社
 会的あるいは法的な性、性自認、年齢、障がい、容姿
 、体格、人種、民族、宗教（無宗教を含む）に対する
 ハラスメント。\nそして以下のような行為をいかなる
 形でも決して許容しません。\n脅迫、つきまとい、ス
 トーキング、不適切な画像、動画、録音の再生（性的
 な画像など）、発表や他のイベントに対する妨害行為
 、不適切な身体的接触、これらに限らない性的嫌がら
 せ。  \n登壇者、主催スタッフもこのポリシーの対象と
 なります。性的な言葉や画像はいかなる発表やワーク
 ショップ、懇親会、Twitterのようなオンラインメディア
 においても不適切です。  \nハラスメント行為をやめる
 ように指示された場合、直ちに従うことが求められま
 す。ルールを守らない方は、主催者の判断により、退
 場処分や今後のイベントに聴講者、登壇者、スタッフ
 として関わることを禁止します。\n協賛\n\nNPO法人 全脳
 アーキテクチャ・イニシアティブ（WBAI）\n
LOCATION:zoom webinar オンライン
URL:https://techplay.jp/event/797370?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR