第45回強化学習アーキテクチャ勉強会

2019/09/17(火)19:15 〜 20:30 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

会場の注意点：

DEEPCORE様のご厚意により，2019年4月から会場がKERNEL HONGO（ユニゾ本郷四丁目ビル 3F）となります．
入室の際，参加者の把握のため，受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました（名刺をご提出いただく形でも構いません）．
正面口（本郷通り沿い）にロックがかかっている場合があります．正面口がロックされている場合には，裏側の階段から3階に上がって頂く形になります．

ご協力の程，よろしくお願いいたします．

スケジュール

19:15〜19:20 オープニング
19:20〜20:10 タイトル：Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)

講演概要：

発表者：甲野佑（DeNA）

タイトル：Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)
アブストラクト
Reinforcement Learning and Control as Probabilistic Inference [2] により，グラフィカルモデルとして強化学習を定義していくことで，改めて自然な形で強化学習を確率的に表現することができた．確率制御と強化学習の統合を試みた重要な知見だと考えられる．
本知見によって強化学習で扱われる状態の表現を観測からの確率的な潜在変数とみなすことができるため，POMDP (部分観測マルコフ決定過程)への自然な対応も可能となる．現在，深層強化学習で扱われている課題(テレビゲーム，ロボットの連続的な運動制御)のほとんどは本質的に POMDP 課題に属する．POMDP に対しては基本的には再帰的構造(RNN 系)や時間窓(※1)を使うことで場当たり的に対処している(※2)．
本発表で紹介する Stochastic Latent actor-critic (SLAC) [1] は確率制御と強化学習の統合を試みた知見 [2] での確率モデル上での定義と同様，状態の潜在空間を確率モデルとして定義している．状態をなんらかの潜在空間に写像してから強化学習するアプローチは複数存在する(変分オートエンコーダを利用する等)が，SLAC で扱うのは完全に確率的な潜在変数であり，そうすることでより少ないサンプルから効率的に学習が行えることが示されている．
その他利点としては，強化学習途中で得られる報酬とは一般にスパースになりがちだが，状態遷移軌跡は定常的に大量に得られる．そのため少ない報酬データに対しての学習が効率化される，また確率的な状態遷移をうまく実際に得られたデータと組み合わせることでデータを水増しし，環境への試行錯誤回数を少なくするなどが考えられる．その代わり，現時点では end-to-end でオンラインな学習としては成立していない点もあり，再帰的な近似関数を用いた POMDP のアプローチと比べて劣る側面も存在する．
状態の潜在空間を明示的に学習に利用するアプローチ自体は昔から存在するため，本発表では確率制御と強化学習の統合を試みた知見 [2] から，対象研究 [1] がそれらとどのような新規性と違いがあるかを解説できればと考えている．
※1 時間方向に m フレーム分の入力画像をまとめて関数近似器に入力する工夫を指す
※2 場当たり的とネガティブな表現を用いているが，それらが間違いっているわけではない
参考文献
[1]Lee, A. X., Nagabandi, A., Abbeel, P., "Levine, S., Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model", arXiv preprint arXiv:1907.00953 (2019).
https://arxiv.org/abs/1907.00953
[2]Sergey, L. "Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review", arXiv preprint arXiv:1805.00909 (2018).
https://arxiv.org/abs/1805.00909