第48回強化学習アーキテクチャ勉強会

2020/01/07(火)19:15 〜 20:30 開催

ブックマーク

ワークショップ, アーキテクチャ, ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

会場の注意点：

DEEPCORE様のご厚意により，2019年4月から会場がKERNEL HONGO（ユニゾ本郷四丁目ビル 3F）となります．
入室の際，参加者の把握のため，受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました（名刺をご提出いただく形でも構いません）．
正面口（本郷通り沿い）にロックがかかっている場合があります．正面口がロックされている場合には，裏側の階段から3階に上がって頂く形になります．

ご協力の程，よろしくお願いいたします．

スケジュール

19:15〜19:20 オープニング
19:20〜19:45 タイトル：タクシー需給マッチングの最適化
19:45〜20:10 タイトル：Batch Reinforcement Learning

講演概要：

発表者：織田拓磨（DeNA）

タイトル：タクシー需給マッチングの最適化
アブストラクト
　近年、自動運転の登場やMaaSによるマルチモーダル交通の統合管理などの期待から、交通サービスの需給マッチングの重要性が高まっている。特にアプリ配車サービスは米国のUberや中国発のタクシー配車サービスである滴滴出行（Didi Chuxing）が精力的にAI活用の研究を進めており、強化学習の応用分野として急速な発展を遂げている。本発表ではタクシーの空車移動を逐次的な意思決定問題とみなし、MPC: Model Predictive Control やDQNによるモデルフリー強化学習を用いた需給マッチングの最適化手法を紹介する。
参考文献
MOVI: A Model-Free Approach to Dynamic Fleet Management. Takuma Oda and Carlee Joe-Wong ; IEEE INFOCOM 2018.
Distributed Fleet Control with Maximum Entropy Deep Reinforcement Learning. Takuma Oda and Yulia Tachibana ; NeurIPS 2018 Workshop.

発表者：織田拓磨（DeNA）

タイトル：Batch Reinforcement Learning
アブストラクト
　スタティックなデータセットから汎用モデルを学習する機械学習タスクと異なり、強化学習は実験（学習）ごとにオンラインで環境に対して相互作用しながらデータ収集が必要である。しかし、自動運転、ロボットなどの多くの実世界の問題では正確なシミュレーション環境を作ることが難しいが、実環境からのデータ収集はコストや安全性、時間的にハードルが高い。一方で、アプリケーションによってはすでに相互作用して収集した大量のデータが手元にあり、このデータセットを強化学習に活用することができれば、汎用的なモデルを学習しやすくなる上、シミュレータレスで学習が可能となり、社会実装への道が一気に広がる。本発表では近年提案されたいくつかのバッチ強化学習のアルゴリズムを紹介し、実世界への応用について議論したい。
参考文献
Reinforcement learning from imperfect demonstrations. Yang Gao, Huazhe Xu, Ji Lin, Fisher Yu, Sergey Levine, and Trevor Darrell ; ICML 2018.
Off-policy deep reinforcement learning without exploration. Scott Fujimoto, David Meger, and Doina Precup : ICML 2019.
Stabilizing off-policy q-learning via bootstrapping error reduction. Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine ; NeurIPS 2019.

イベントマナー：

参加にあたって、以下のイベントマナーを厳守してください。

強化学習アーキテクチャではイベントへの参加や登壇について、情報の共有とコミュニケーションを目的としています。イベントに参加するすべての人は下記の行動規範を守ることを求められます。すべての人にとって安全な場所を提供するため、聴講者、登壇者、主催スタッフ含めたすべての方にご協力をお願いします。

私たちは下記のような事柄に関わらずすべての人にとって安全な場を提供することに努めます。
社会的あるいは法的な性、性自認、年齢、障がい、容姿、体格、人種、民族、宗教（無宗教を含む）に対するハラスメント。
そして以下のような行為をいかなる形でも決して許容しません。
脅迫、つきまとい、ストーキング、不適切な画像、動画、録音の再生（性的な画像など）、発表や他のイベントに対する妨害行為、不適切な身体的接触、これらに限らない性的嫌がらせ。

登壇者、主催スタッフもこのポリシーの対象となります。性的な言葉や画像はいかなる発表やワークショップ、懇親会、Twitterのようなオンラインメディアにおいても不適切です。

ハラスメント行為をやめるように指示された場合、直ちに従うことが求められます。ルールを守らない方は、主催者の判断により、退場処分や今後のイベントに聴講者、登壇者、スタッフとして関わることを禁止します。