第21回 強化学習アーキテクチャ勉強会

2018/07/24(火)18:45 〜 20:35 開催
ブックマーク

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:45 論文紹介:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review (発表35分、質疑応答15分)

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:甲野 祐(DeNA)

  • タイトル: 論文紹介:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

  • アブストラクト: 強化学習は状態に対する最適な方策分布(確率)を推論する問題である.しかし強化学習を確率の推論問題だと捉える場合,その方策の良さを定義する収益概念の扱い方が問題になる. 当該論文ではまず報酬的に最適であるかの最適性変数を与えることで強化学習がその上で駆動する確率的グラフィカルモデル(PGM)を構築している.そして Maximum entropy 強化学習と呼ばれる強化学習の最適制御問題の一般化が確率的推論モデルとどのように等価であるかを PGM を用いて解説している. 強化学習の最大の問題の一つとして「現実の課題環境は基本的に POMDP 」ということが言える.観測情報のみからは真の環境の状態の推定という MDP での強化学習とは全く異なる問題を抱えている(方策勾配法であると本質的には解決できない問題).不完全観測から真の状態の推定は本来 HMM などの確率推論モデルで行われるべきものだが,慣例的,古典的には N 階マルコフ(入力する観測の履歴化),現在では LSTM などの RNN 系技術の導入で対処している.しかし本定式化により収益概念を内包した確率モデルとして強化学習を扱うことにより,部分観測性を確率推論のテクニックを用いてより直接的な方法で POMDP を扱える可能性を示している.

  • 参考文献:
    [1]Levine, Sergey. "Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review", arXiv preprint arXiv:1805.00909 (2018). https://arxiv.org/abs/1805.00909

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。

関連するイベント