第5回強化学習アーキテクチャ勉強会

2017/09/19(火)18:45 〜 21:30 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

今回は、斎藤惇さんにICML2017の論文についてご発表いただきます．

スケジュール

18:50 〜18:55 オープニング
18:55〜19:45 講演：論文紹介　Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution（斎藤惇）発表35分、質疑応答15分
19:45〜20:45 フリーディスカッション

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者1：斎藤惇

タイトル：論文紹介　Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution
アブストラクト：

行動空間が連続値のときのアルゴリズムにおいて従来は方策をガウス分布でモデル化していた。ガウス分布では、行動空間に取りうる値の制限が存在しない。しかしながら、実際的な問題設定では、自動車のハンドルの角度などが限られた範囲しか回転しないといったように行動の取りうる値の範囲が限られていることが多い。本論文では、TRPOやACERにおいて、ベータ分布に変えたところガウス分布を上回る収束速度が得られた。

参考文献：

Chou, P.-W., Maturana, D., & Scherer, S. (2017). Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution. In Proceedings of the 34th International Conference on Machine Learning (Vol. 70, pp. 834–843).