第34回 強化学習アーキテクチャ勉強会

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50〜18:55 オープニング
  • 18:55〜19:45 報酬が稀にしか得られない場合の階層的探索の可能性と比較

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:中井眞人(産業技術大学院大学)

  • タイトル:報酬が稀にしか得られない場合の階層的探索の可能性と比較

  • アブストラクト
    強化学習では摩擦や制御誤差がなく報酬が逐次得られる環境では、単独エージェントの場合深層学習を使ったActor-Critic方式が優れていることはほぼ明確である。しかし複数エージェントの相互協業や報酬が稀にしか得られない場合には未だ大きな課題が残っている。後者の場合は報酬に関わらず有効な探索をする必要があり、内的動機や状態表現による方式がある。内的動機は知りたい事を動機する探索であり、状態表現は観察から実態を推定して探索する方法である。その中で状態を階層的に認識する方式も有効であり、その可能性や比較検討してみる。

  • 参考文献
    [1]Bacon, P. L., Harb, J., & Precup, D. (2017, February). The option-critic architecture. In Thirty-First AAAI Conference on Artificial Intelligence.
    [2]Ecoffet, A., Huizinga, J., Lehman, J., Stanley, K. O., & Clune, J. (2019). Go-Explore: a New Approach for Hard-Exploration Problems. arXiv preprint arXiv:1901.10995.
    [3]Burda, Y., Edwards, H., Storkey, A., & Klimov, O. (2018). Exploration by random network distillation. arXiv preprint arXiv:1810.12894.
    [4]Mishra, N., Rohaninejad, M., Chen, X., & Abbeel, P. (2017). A simple neural attentive meta-learner. arXiv preprint arXiv:1707.03141.
    [5]Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., & Kavukcuoglu, K. (2017, August). Feudal networks for hierarchical reinforcement learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 3540-3549). JMLR. org.
    [6]Duan, Y., Schulman, J., Chen, X., Bartlett, P. L., Sutskever, I., & Abbeel, P. (2016). RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning. arXiv preprint arXiv:1611.02779.
    [7]Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. Z., Munos, R., ... & Botvinick, M. (2016). Learning to reinforcement learn. arXiv preprint arXiv:1611.05763.
    [8]Gregor, K., & Besse, F. (2018). Temporal difference variational auto-encoder. arXiv preprint arXiv:1806.03107.
    [9]Neural scene representation and rendering | DeepMind

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。