2017/08/24(木)18:45 〜 21:30

第3回強化学習アーキテクチャ勉強会

現地開催

基本情報

日時: 2017/08/24(木) 18:45〜21:30
開催形式: 現地開催
会場: φcafe
住所: 東京都文京区本郷5丁目24-5　角川本郷ビル6F

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

今回は、東京大学の冨山さんと株式会社Nextremerの壹岐さんにご講演いただく予定です。興味の有る方は奮ってご参加下さい。

スケジュール

18:50 〜18:55 オープニング
18:55〜19:55 講演：深層学習を用いた逆強化学習 (冨山翔司) 発表45分、質疑応答15分
19:55〜20:40 講演：論文紹介 "Bridging the Gap Between Value and Policy Based Reinforcement Learning" (壹岐太一) 発表30分、質疑応答15分
20:40〜21:30 フリーディスカッション

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者1：冨山翔司 (東京大学)

タイトル：深層学習を用いた逆強化学習
アブストラクト：本発表ではGuided Cost Learning(Finn, 2016)とGenerative Adversarial Imitation Learning(Ho, 2016)を中心に，近年の深層学習を用いた逆強化学習について紹介する．また，逆強化学習とGANsとの関連についても紹介する．

発表者2：壹岐太一(株式会社Nextremer)

タイトル：論文紹介 "Bridging the Gap Between Value and Policy Based Reinforcement Learning"
アブストラクト：強化学習には、大きく分けて行動価値の更新を通して方策を更新するもの(value-based)と方策勾配を求めて直接更新するもの(policy-based)の二種類がある。これらをつなぎ合わせることによって、より効率的で安定した深層強化学習アルゴリズムができると期待されている。紹介する論文は２つをつなぎ合わせた新しいアルゴリズムの提案である。具体的には、通常の期待報酬に割引エントロピー正則化項も含めた最適化対象関数を考え、それを最大化する行動価値関数についての方程式(Softmax temporal consistency)をベースに、そこから状態価値と方策に関する方程式を導出する。そして、この方程式からTD(λ)法にエントロピー項を加えたようなn-stepアルゴリズム(Path Consistency Learning, PCL)が提案される。今回はこのPCL導出の概説を行う(論文補遺にある状態価値と方策に関する方程式の解と最適解の必要十分性の証明には立ち入らない)。

主要参考文献：

冨山さん：

Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization https://arxiv.org/pdf/1603.00448.pdf
A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-BasedModels https://arxiv.org/pdf/1611.03852.pdf
Generative Adversarial Imitation Learning https://arxiv.org/pdf/1606.03476.pdf

壹岐さん：

Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans. (2017). Bridging the Gap Between Value and Policy Based Reinforcement Learning. arXiv. https://arxiv.org/abs/1702.08892