BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第12回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第12回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:658558@techplay.jp
SUMMARY:第12回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20180213T184500
DTEND;TZID=Asia/Tokyo:20180213T202500
DTSTAMP:20260501T212931Z
CREATED:20180208T101000Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/65855
 8?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場でつかわれれはじめており
 、さらにロボットなどにおいても今後は適用されてゆ
 くシーンが増えてゆくでしょう、こうした背景から、
 実践的な強化学習や，実世界で動かす強化学習（ロボ
 ット・自動運転），強化学習を部品として組み合わせ
 る（アーキテクチャ），といったトピックについて重
 視し情報共有する場として強化学習アーキテクチャ勉
 強会を開始しました。\n本勉強会において積極的に議
 論に加わっていただき、今後、論文紹介などの形で貢
 献いただけるかたの参加をお待ちしております。\n当
 勉強会の運営方針などについては、https://rlarch.connpass.c
 om/ を御覧ください。\n\nGoogle Group : https://goo.gl/xznKlY （
 注：KlYのIは「L」の小文字です）\nSlack : https://join.slack.
 com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
 \n\nスケジュール\n\n18:50 〜18:55  オープニング\n18:55〜20:
 25 講演：DQNからRainbowまで 〜深層強化学習の最新動向
 〜（奥村 純）発表75分、質疑応答15分\n\n※ 19:00にビル
 入り口が施錠されるため、19時以前に起こしください
 （万が一19時を過ぎてしまった場合はインターホンに
 てご連絡ください）\n講演概要：\n発表者：奥村 純 (DeN
 A)\n\n\nタイトル：\nDQNからRainbowまで 〜深層強化学習の
 最新動向〜\n\n\nアブストラクト：\n近年Atariや囲碁、Sta
 rCraftに代表されるような様々なゲームが、深層強化学
 習の進展等によって高い成績を出せるようになってき
 ている。これらのゲームタスクにおいて機運が変わっ
 た一つのきっかけはDeep Q Network (DQN) の登場であり、そ
 の後もDQNは様々な改良が加えられながらベンチマーク
 タスクのSotAが更新され続けている。\nこの講演では、2
 017年に提案された"Rainbow"アルゴリズムを元に、DQN以前
 ・以後に提案されてきたいくつかの深層強化学習アル
 ゴリズムを概観する。また、これらのアルゴリズムは
 、総合評価として"全タイトルのパフォーマンス統計"
 が参照されているためにSotAであることが目立ちがちで
 あるが、ここでは各アルゴリズムに対して議論を重ね
 ることでなるべく批判的に内容を読んでいきたい。本
 講演では、model-freeかつoff-policyなアルゴリズムのみに
 着目し、タスクとしてはAtariを中心に取り上げる予定
 である。\n\n\n参考文献\n[1] Riedmiller\, Martin. "Neural fitted Q
  iteration–first experiences with a data efficient neural reinforcement
  learning method". In: European Conference on Machine Learning. Springer\
 , Berlin\, Heidelberg\, 2005. p. 317-328.\n[2] Mnih\, Volodymyr\, et al. 
 "Human-level control through deep reinforcement learning." Nature 518.754
 0 (2015): 529.\n[3]  Van Hasselt\, Hado\, Arthur Guez\, and David Silver.
  "Deep Reinforcement Learning with Double Q-Learning." AAAI. Vol. 16. 201
 6.\n[4] Schaul\, Tom\, et al. "Prioritized experience replay." arXiv prep
 rint arXiv:1511.05952 (2015).\n[5] Wang\, Ziyu\, et al. "Dueling network 
 architectures for deep reinforcement learning."  arXiv preprint arXiv:151
 1.06581 (2015).\n[6] Sutton\, Richard S.\, and Andrew G. Barto. "Reinforc
 ement learning: An introduction."  Vol. 1. No. 1. Cambridge: MIT press\, 
 1998.\n[7] Wang\, Ziyu\, et al. "Dueling network architectures for deep r
 einforcement learning."  arXiv preprint arXiv:1511.06581 (2015).\n[8] Wan
 g\, Ziyu\, et al. "Dueling network architectures for deep reinforcement l
 earning."  arXiv preprint arXiv:1511.06581 (2015).\n[9] Hessel\, Matteo\,
  et al. "Rainbow: Combining Improvements in Deep Reinforcement Learning."
   arXiv preprint arXiv:1710.02298 (2017).\n\n
LOCATION:φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F
URL:https://techplay.jp/event/658558?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
