BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第2回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第2回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:630531@techplay.jp
SUMMARY:第2回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20170810T184500
DTEND;TZID=Asia/Tokyo:20170810T203000
DTSTAMP:20260428T033519Z
CREATED:20170808T160318Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/63053
 1?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場でつかわれれはじめており
 、さらにロボットなどにおいても今後は適用されてゆ
 くシーンが増えてゆくでしょう、こうした背景から、
 実践的な強化学習や，実世界で動かす強化学習（ロボ
 ット・自動運転），強化学習を部品として組み合わせ
 る（アーキテクチャ），といったトピックについて重
 視し情報共有する場として強化学習アーキテクチャ勉
 強会を開始しました。\n本勉強会において積極的に議
 論に加わっていただき、今後、論文紹介などの形で貢
 献いただけるかたの参加をお待ちしております。\n当
 勉強会の運営方針などについては、https://rlarch.connpass.c
 om/ を御覧ください。\n今回は、東京大学の初谷さんに
 、連続行動空間を扱った強化学習について解説頂く予
 定です。興味の有る方は奮ってご参加下さい。\nスケ
 ジュール\n\n18:50 〜18:55  オープニング\n18:55〜19:55 講演
 ： 連続行動空間における強化学習 (初谷 怜慈) 発表45
 分、質疑応答15分\n19:55〜20:30 フリーディスカッション\
 n\n※ 19:00にビル入り口が施錠されるため、19時以前に
 起こしください（万が一19時を過ぎてしまった場合は
 インターホンにてご連絡ください）\n講演概要：\n\n発
 表者： 初谷怜慈 (東京大学)\nタイトル：連続行動空間
 における強化学習 \nアブストラクト：強化学習の行動
 空間は離散空間か連続空間が考えられる。\nAtari等のゲ
 ーム環境においては離散行動空間が用いられることが
 多い一方、現実世界におけるロボットの強化学習など
 では連続行動空間が適している場合が多い。\n連続行
 動空間における強化学習はいくつかの方向性に発展を
 している。離散行動空間で用いられたDQNを連続空間に
 適用できるよう変形したNAF [0] 、微分不可能な損失関
 数 (hard attentionなど) において使われる方策勾配法をも
 ちいたもの[1] とその発展手法[2\,3]、さらにGANsのよう
 に異なるネットワークの勾配を方策の更新に使用する
 もの[4]などがある。\n本発表ではまず連続行動空間の
 強化学習手法を基礎的なところから復習し、どのよう
 な研究の流れになっているのかについて発表する。\n\n
 主要参考文献：\n\n[0] Continuous Deep Q-Learning with Model-based 
 Acceleration\nhttps://arxiv.org/pdf/1603.00748.pdf\n[1] Policy Gradient M
 ethods for Reinforcement Learning with Function Approximation\, https://h
 omes.cs.washington.edu/~todorov/courses/amath579/reading/PolicyGradient.p
 df\n[2] Asynchronous Methods for Deep Reinforcement Learning\, https://ar
 xiv.org/pdf/1602.01783.pdf\n[3] Trust Region Policy Optimization\, https:
 //arxiv.org/pdf/1502.05477.pdf\n[4] Continuous control with deep reinforc
 ement learning\, https://arxiv.org/pdf/1509.02971.pdf\n
LOCATION:φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F
URL:https://techplay.jp/event/630531?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR