2017/08/10(木)18:45 〜 20:30

第2回強化学習アーキテクチャ勉強会

現地開催

基本情報

日時: 2017/08/10(木) 18:45〜20:30
開催形式: 現地開催
会場: φcafe
住所: 東京都文京区本郷5丁目24-5　角川本郷ビル6F

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

今回は、東京大学の初谷さんに、連続行動空間を扱った強化学習について解説頂く予定です。興味の有る方は奮ってご参加下さい。

スケジュール

18:50 〜18:55 オープニング
18:55〜19:55 講演：連続行動空間における強化学習 (初谷怜慈) 発表45分、質疑応答15分
19:55〜20:30 フリーディスカッション

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：初谷怜慈 (東京大学)
タイトル：連続行動空間における強化学習
アブストラクト：強化学習の行動空間は離散空間か連続空間が考えられる。 Atari等のゲーム環境においては離散行動空間が用いられることが多い一方、現実世界におけるロボットの強化学習などでは連続行動空間が適している場合が多い。連続行動空間における強化学習はいくつかの方向性に発展をしている。離散行動空間で用いられたDQNを連続空間に適用できるよう変形したNAF [0] 、微分不可能な損失関数 (hard attentionなど) において使われる方策勾配法をもちいたもの[1] とその発展手法[2,3]、さらにGANsのように異なるネットワークの勾配を方策の更新に使用するもの[4]などがある。本発表ではまず連続行動空間の強化学習手法を基礎的なところから復習し、どのような研究の流れになっているのかについて発表する。