BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:第21回 強化学習アーキテクチャ勉強会
X-WR-CALNAME:第21回 強化学習アーキテクチャ勉強会
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:686064@techplay.jp
SUMMARY:第21回 強化学習アーキテクチャ勉強会
DTSTART;TZID=Asia/Tokyo:20180724T184500
DTEND;TZID=Asia/Tokyo:20180724T203500
DTSTAMP:20260428T202338Z
CREATED:20180720T020350Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/68606
 4?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\nはじめに\n
 強化学習は環境に柔軟に適応する知能エージェントに
 おける基本機能と考えられます。近年は深層学習など
 のアーキテクチャとして、認識技術と組み合わされて
 自動運転などの実践的な場でつかわれれはじめており
 、さらにロボットなどにおいても今後は適用されてゆ
 くシーンが増えてゆくでしょう、こうした背景から、
 実践的な強化学習や，実世界で動かす強化学習（ロボ
 ット・自動運転），強化学習を部品として組み合わせ
 る（アーキテクチャ），といったトピックについて重
 視し情報共有する場として強化学習アーキテクチャ勉
 強会を開始しました。\n本勉強会において積極的に議
 論に加わっていただき、今後、論文紹介などの形で貢
 献いただけるかたの参加をお待ちしております。\n当
 勉強会の運営方針などについては、https://rlarch.connpass.c
 om/ を御覧ください。\n\nGoogle Group : https://goo.gl/xznKlY （
 注：KlYのIは「L」の小文字です）\nSlack : https://join.slack.
 com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
 \n\nスケジュール\n\n18:50 〜18:55  オープニング\n18:55〜19:
 45 論文紹介：Reinforcement Learning and Control as Probabilistic Inf
 erence: Tutorial and Review (発表35分、質疑応答15分)\n\n※ 19:0
 0にビル入り口が施錠されるため、19時以前にお越しく
 ださい（万が一19時を過ぎてしまった場合はインター
 ホンにてご連絡ください）\n講演概要：\n発表者：甲野
  祐（DeNA）\n\n\nタイトル：\n論文紹介：Reinforcement Learnin
 g and Control as Probabilistic Inference: Tutorial and Review\n\n\nアブ
 ストラクト：\n強化学習は状態に対する最適な方策分
 布(確率)を推論する問題である．しかし強化学習を確
 率の推論問題だと捉える場合，その方策の良さを定義
 する収益概念の扱い方が問題になる．\n当該論文では
 まず報酬的に最適であるかの最適性変数を与えること
 で強化学習がその上で駆動する確率的グラフィカルモ
 デル(PGM)を構築している．そして Maximum entropy 強化学習
 と呼ばれる強化学習の最適制御問題の一般化が確率的
 推論モデルとどのように等価であるかを PGM を用いて
 解説している．\n強化学習の最大の問題の一つとして
 「現実の課題環境は基本的に POMDP 」ということが言え
 る．観測情報のみからは真の環境の状態の推定という 
 MDP での強化学習とは全く異なる問題を抱えている(方
 策勾配法であると本質的には解決できない問題)．不完
 全観測から真の状態の推定は本来 HMM などの確率推論
 モデルで行われるべきものだが，慣例的，古典的には 
 N 階マルコフ(入力する観測の履歴化)，現在では LSTM な
 どの RNN 系技術の導入で対処している．しかし本定式
 化により収益概念を内包した確率モデルとして強化学
 習を扱うことにより，部分観測性を確率推論のテクニ
 ックを用いてより直接的な方法で POMDP を扱える可能性
 を示している．\n\n\n参考文献：\n[1]Levine\, Sergey. "Reinforc
 ement Learning and Control as Probabilistic Inference: Tutorial and Revie
 w"\, arXiv preprint arXiv:1805.00909 (2018). https://arxiv.org/abs/1805.0
 0909\n\n
LOCATION:φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F
URL:https://techplay.jp/event/686064?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
