第46回強化学習アーキテクチャ勉強会

2019/10/29(火)19:15 〜 20:30 開催

ブックマーク

機械学習, アーキテクチャ, ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

会場の注意点：

DEEPCORE様のご厚意により，2019年4月から会場がKERNEL HONGO（ユニゾ本郷四丁目ビル 3F）となります．
入室の際，参加者の把握のため，受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました（名刺をご提出いただく形でも構いません）．
正面口（本郷通り沿い）にロックがかかっている場合があります．正面口がロックされている場合には，裏側の階段から3階に上がって頂く形になります．

ご協力の程，よろしくお願いいたします．

スケジュール

19:15〜19:20 オープニング
19:20〜20:10 タイトル：多目的強化学習　~非凸なパレート最適方策の獲得に向けた研究~

講演概要：

発表者：山本慶佑（千葉大学）

タイトル：多目的強化学習　~非凸なパレート最適方策の獲得に向けた研究~
アブストラクト
多目的強化学習（MORL）は，複数の競合する目的の最適性を考慮した手法である．複数の目的が競合しているため，最適方策は複数存在する．MORLにおける最適方策をパレート最適方策とよぶ．文献[1]でMORLの評価方法が提案されるまで，パレート最適方策についての評価はされていなかった．そこで本発表では，MORLの性能評価に着目した文献を紹介する．具体的には，できるだけ多くのパレート最適方策を獲得することを目標とした研究について述べる．
参考文献
[1]Vamplew, Peter, et al. "Empirical evaluation methods for multiobjective reinforcement learning algorithms." Machine learning 84.1-2 (2011): 51-80.
[2]Van Moffaert, Kristof, Madalina M. Drugan, and Ann Nowé. "Scalarized multi-objective reinforcement learning: Novel design techniques." 2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL). IEEE, 2013.
[3]Van Moffaert, Kristof, and Ann Nowé. "Multi-objective reinforcement learning using sets of pareto dominating policies." The Journal of Machine Learning Research 15.1 (2014): 3483-3512.