第32回強化学習アーキテクチャ勉強会

2019/02/05(火)18:45 〜 21:00 開催

ブックマーク

ハンズオン, 機械学習, アーキテクチャ

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

スケジュール

18:50〜18:55 オープニング
18:55〜20:35 状態表現学習と世界モデルの最近の研究，および深層生成モデルライブラリPixyzの紹介

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：松嶋達也 (東京大学工学系研究科修士課程1年)

タイトル：状態表現学習と世界モデルの最近の研究，および深層生成モデルライブラリPixyzの紹介
アブストラクト

1) 強化学習のための状態表現学習と世界モデル

強化学習問題において，「状態」は所与のものとして考えがちであるが，必ずしもエージェントの観測そのものを用いることが良いとは限らない．例えば，部分観測問題であれば，エージェントが過去の観測を何らかの形で記憶して利用することが有益であろう．そのため，効率的な強化学習のためには，エージェントの過去の観測から有益な「状態」の表現を学習するようにモデルを設計することが有望である．このような状態表現や状態遷移を学習し，エージェントの環境のモデリングを行うモデルは「世界モデル」[1]や，「内部モデル」と呼ばれており，近年，画像など高次元の入力に対応するために状態表現学習に深層生成モデルを用いる研究が数多く発表されている．これらの研究を，2018年にarXivに投稿されたレビュー論文[2]に基づきながら整理して議論する．

2) 深層生成モデルライブラリPixyzハンズオン

様々な深層生成モデルを簡潔に記述することのできる，PyTorchベースのライブラリであるPixyz[3]のハンズオンを行う(PyTorchが使用可能なラップトップがあると便利だと思います)．

3) 最近の世界モデル研究紹介: GQN・TD-VAE

英DeepMind社から2018年に発表された世界モデル関連の研究である，Generative Query Network (GQN)[4] とTemoral Difference Variational Auto-Encoder (TD-VAE) [5]の2つのモデルに関して，Pixyzによる実装例を交えながら説明を行う．これらのモデルの応用やその先の展望を議論したい．
参考文献
[1] David Ha, et al. "World Models". https://arxiv.org/abs/1803.10122
[2] Timothée Lesort, et al. "State Representation Learning for Control: An Overview". https://arxiv.org/abs/1802.04181
[3] https://github.com/masa-su/pixyz
[4] S. M. Ali Eslami, et al. "Neural scene representation and rendering". https://deepmind.com/blog/neural-scene-representation-and-rendering/
[5] Karol Gregor, et al. "Temporal Difference Variational Auto-Encoder". https://arxiv.org/abs/1806.03107