BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第45回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第45回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:750114@techplay.jp
SUMMARY:第45回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20190917T191500
DTEND;TZID=Asia/Tokyo:20190917T203000
DTSTAMP:20260422T033402Z
CREATED:20190911T141541Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/75011
 4?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場でつかわれれはじめており
 、さらにロボットなどにおいても今後は適用されてゆ
 くシーンが増えてゆくでしょう、こうした背景から、
 実践的な強化学習や，実世界で動かす強化学習（ロボ
 ット・自動運転），強化学習を部品として組み合わせ
 る（アーキテクチャ），といったトピックについて重
 視し情報共有する場として強化学習アーキテクチャ勉
 強会を開始しました。\n本勉強会において積極的に議
 論に加わっていただき、今後、論文紹介などの形で貢
 献いただけるかたの参加をお待ちしております。\n当
 勉強会の運営方針などについては、https://rlarch.connpass.c
 om/ を御覧ください。\n\nGoogle Group: https://goo.gl/xznKlY （
 注：KlYのIは「L」の小文字です）\nSlack: https://join.slack.c
 om/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg\
 nTwitter: #rlarch 勉強会のハッシュタグを作りました．コ
 メントや質問等にご活用ください．\n\n 会場の注意点
 ：\n\nDEEPCORE様のご厚意により，2019年4月から会場がKERNE
 L HONGO（ユニゾ本郷四丁目ビル 3F）となります．\n入室
 の際，参加者の把握のため，受付にて「お名前・ご所
 属・ご連絡先」を記入していただくことになりました
 （名刺をご提出いただく形でも構いません）．\n正面
 口（本郷通り沿い）にロックがかかっている場合があ
 ります． 正面口がロックされている場合には，裏側の
 階段から3階に上がって頂く形になります．\n\nご協力
 の程，よろしくお願いいたします．\nスケジュール\n\n1
 9:15〜19:20  オープニング\n19:20〜20:10  タイトル：Stochasti
 c Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable
  Model (SLAC)\n\n講演概要：\n発表者：甲野 佑（DeNA）\n\n\n
 タイトル：Stochastic Latent Actor-Critic: Deep Reinforcement Learnin
 g with a Latent Variable Model (SLAC)\n\n\nアブストラクト\nReinfor
 cement Learning and Control as Probabilistic Inference [2] により，
 グラフィカルモデルとして強化学習を定義していくこ
 とで，改めて自然な形で強化学習を確率的に表現する
 ことができた．確率制御と強化学習の統合を試みた重
 要な知見だと考えられる．\n本知見によって強化学習
 で扱われる状態の表現を観測からの確率的な潜在変数
 とみなすことができるため，POMDP (部分観測マルコフ決
 定過程)への自然な対応も可能となる．現在，深層強化
 学習で扱われている課題(テレビゲーム，ロボットの連
 続的な運動制御)のほとんどは本質的に POMDP 課題に属
 する．POMDP に対しては基本的には再帰的構造(RNN 系)や
 時間窓(※1)を使うことで場当たり的に対処している(※
 2)．\n本発表で紹介する Stochastic Latent actor-critic (SLAC) [1]
  は確率制御と強化学習の統合を試みた知見 [2] での確
 率モデル上での定義と同様，状態の潜在空間を確率モ
 デルとして定義している．状態をなんらかの潜在空間
 に写像してから強化学習するアプローチは複数存在す
 る(変分オートエンコーダを利用する等)が，SLAC で扱う
 のは完全に確率的な潜在変数であり，そうすることで
 より少ないサンプルから効率的に学習が行えることが
 示されている．\nその他利点としては，強化学習途中
 で得られる報酬とは一般にスパースになりがちだが，
 状態遷移軌跡は定常的に大量に得られる．そのため少
 ない報酬データに対しての学習が効率化される，また
 確率的な状態遷移をうまく実際に得られたデータと組
 み合わせることでデータを水増しし，環境への試行錯
 誤回数を少なくするなどが考えられる．その代わり，
 現時点では end-to-end でオンラインな学習としては成立
 していない点もあり，再帰的な近似関数を用いた POMDP 
 のアプローチと比べて劣る側面も存在する．\n状態の
 潜在空間を明示的に学習に利用するアプローチ自体は
 昔から存在するため，本発表では確率制御と強化学習
 の統合を試みた知見 [2] から，対象研究 [1] がそれらと
 どのような新規性と違いがあるかを解説できればと考
 えている．\n※1 時間方向に m フレーム分の入力画像を
 まとめて関数近似器に入力する工夫を指す\n※2 場当た
 り的とネガティブな表現を用いているが，それらが間
 違いっているわけではない  \n\n\n参考文献\n[1]Lee\, A. X.\
 , Nagabandi\, A.\, Abbeel\, P.\, "Levine\, S.\, Stochastic Latent Actor-C
 ritic: Deep Reinforcement Learning with a Latent Variable Model"\, arXiv 
 preprint arXiv:1907.00953 (2019). \nhttps://arxiv.org/abs/1907.00953\n[2]
 Sergey\, L. "Reinforcement Learning and Control as Probabilistic Inferenc
 e: Tutorial and Review"\, arXiv preprint arXiv:1805.00909 (2018). \nhttps
 ://arxiv.org/abs/1805.00909\n\n
LOCATION:KERNEL HONGO 東京都文京区本郷4-1-4 ユニゾ本郷四丁
 目ビル 3F
URL:https://techplay.jp/event/750114?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR