BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第3回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第3回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:631785@techplay.jp
SUMMARY:第3回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20170824T184500
DTEND;TZID=Asia/Tokyo:20170824T213000
DTSTAMP:20260421T022848Z
CREATED:20170822T100400Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/63178
 5?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場でつかわれれはじめており
 、さらにロボットなどにおいても今後は適用されてゆ
 くシーンが増えてゆくでしょう、こうした背景から、
 実践的な強化学習や，実世界で動かす強化学習（ロボ
 ット・自動運転），強化学習を部品として組み合わせ
 る（アーキテクチャ），といったトピックについて重
 視し情報共有する場として強化学習アーキテクチャ勉
 強会を開始しました。\n本勉強会において積極的に議
 論に加わっていただき、今後、論文紹介などの形で貢
 献いただけるかたの参加をお待ちしております。\n当
 勉強会の運営方針などについては、https://rlarch.connpass.c
 om/ を御覧ください。\n今回は、東京大学の冨山さんと
 株式会社Nextremerの壹岐さんにご講演いただく予定です
 。興味の有る方は奮ってご参加下さい。\nスケジュー
 ル\n\n18:50 〜18:55  オープニング\n18:55〜19:55 講演： 深層
 学習を用いた逆強化学習 (冨山 翔司) 発表45分、質疑応
 答15分\n19:55〜20:40 講演：論文紹介 "Bridging the Gap Between V
 alue and Policy Based\nReinforcement Learning" (壹岐太一) 発表30分
 、質疑応答15分\n20:40〜21:30 フリーディスカッション\n\n
 ※ 19:00にビル入り口が施錠されるため、19時以前に起
 こしください（万が一19時を過ぎてしまった場合はイ
 ンターホンにてご連絡ください）\n講演概要：\n発表者
 1： 冨山 翔司 (東京大学)\n\nタイトル：深層学習を用い
 た逆強化学習\nアブストラクト：本発表ではGuided Cost Le
 arning(Finn\, 2016)とGenerative Adversarial Imitation Learning(Ho\, 2016
 )を中心に，近年の深層学習を用いた逆強化学習につい
 て紹介する．また，逆強化学習とGANsとの関連について
 も紹介する．\n\n発表者2：壹岐太一(株式会社Nextremer)\n
 \nタイトル：論文紹介 "Bridging the Gap Between Value and Policy 
 Based\nReinforcement Learning"\nアブストラクト：強化学習に
 は、大きく分けて行動価値の更新を通して方策を更新
 するもの(value-based)と方策勾配を求めて直接更新するも
 の(policy-based)の二種類がある。これらをつなぎ合わせ
 ることによって、より効率的で安定した深層強化学習
 アルゴリズムができると期待されている。紹介する論
 文は２つをつなぎ合わせた新しいアルゴリズムの提案
 である。具体的には、通常の期待報酬に割引エントロ
 ピー正則化項も含めた最適化対象関数を考え、それを
 最大化する行動価値関数についての方程式(Softmax tempora
 l consistency)をベースに、そこから状態価値と方策に関
 する方程式を導出する。そして、この方程式からTD(λ)
 法にエントロピー項を加えたようなn-stepアルゴリズム(
 Path Consistency Learning\, PCL)が提案される。今回はこのPCL
 導出の概説を行う(論文補遺にある状態価値と方策に関
 する方程式の解と最適解の必要十分性の証明には立ち
 入らない)。\n\n主要参考文献：\n冨山さん：\n\n\nGuided Co
 st Learning: Deep Inverse Optimal Control via Policy Optimization https:/
 /arxiv.org/pdf/1603.00448.pdf\n\n\nA Connection Between Generative Advers
 arial\nNetworks\, Inverse Reinforcement Learning\, and Energy-BasedModels
  https://arxiv.org/pdf/1611.03852.pdf\n\n\nGenerative Adversarial Imitati
 on Learning https://arxiv.org/pdf/1606.03476.pdf\n\n\n壹岐さん：\n\n
 Ofir Nachum\, Mohammad Norouzi\, Kelvin Xu\, Dale Schuurmans. (2017).\nBr
 idging the Gap Between Value and Policy Based Reinforcement\nLearning. ar
 Xiv. https://arxiv.org/abs/1702.08892\n
LOCATION:φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F
URL:https://techplay.jp/event/631785?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
