第27回 強化学習アーキテクチャ勉強会

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:45 研究紹介:R2D2: 深層強化学習の分散化・RNN利用の動向

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:奥村純(DeNA)

  • タイトル:R2D2: 深層強化学習の分散化・RNN利用の動向

  • アブストラクト:
    Deep Q-Network(DQN)の登場以降、深層強化学習アルゴリズムは学習の安定化や効率化を目指して様々な改良がなされてきた。その流れの一部として、大規模分散化による軌跡サンプリングの効率化やRNNの活用が挙げられる。前者は大量のエージェントが多様な探索を行うことで、学習がよりロバストになり時間効率が改善する効果が見込まれる。また、後者については、より良く時系列から状態を推定できるようになるため、POMDP(部分観測MDP)のような課題に対応できる可能性が提起されている。本講演では最近ICLR2019にSubmitされた強化学習アルゴリズムであるR2D2(Recurrent Replay Distributed DQN)を紹介する。この論文では過去に提案された分散強化学習手法のApe-Xに上手くRNNを取り入れている他、報酬Clippingを工夫したり、従来のようにエピソード終端に対して不自然な設定を行わないなどの修正を行い、既存SotAであるApe-Xの3倍を超える成績改善を達成した。過去の分散化やRNN活用の流れにも触れながら、提案手法の要点について議論を行いたい。

  • 参考文献:
    [1]Recurrent Experience Replay in Distributed Reinforcement Learning, ICLR2019 submitted
    https://openreview.net/forum?id=r1lyTjAqYX
    [2]Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International conference on machine learning, pp. 1928–1937, 2016.
    https://arxiv.org/abs/1602.01783
    [3]Matthew Hausknecht and Peter Stone. Deep recurrent Q-learning for partially observable MDPs. CoRR, abs/1507.06527, 7(1), 2015.
    https://arxiv.org/abs/1507.06527
    [4]Dan Horgan, John Quan, David Budden, Gabriel Barth-Maron, Matteo Hessel, Hado Van Hasselt, and David Silver. Distributed prioritized experience replay. arXiv preprint arXiv:1803.00933, 2018.
    https://arxiv.org/abs/1803.00933
    [5]Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.
    https://arxiv.org/abs/1802.01561

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。

類似しているイベント