第47回強化学習アーキテクチャ勉強会

2019/11/12(火)19:15 〜 20:30 開催

ブックマーク

#機械学習, #アーキテクチャ, #ロボット

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

会場の注意点：

DEEPCORE様のご厚意により，2019年4月から会場がKERNEL HONGO（ユニゾ本郷四丁目ビル 3F）となります．
入室の際，参加者の把握のため，受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました（名刺をご提出いただく形でも構いません）．
正面口（本郷通り沿い）にロックがかかっている場合があります．正面口がロックされている場合には，裏側の階段から3階に上がって頂く形になります．

ご協力の程，よろしくお願いいたします．

スケジュール

19:15〜19:20 オープニング
19:20〜19:45 タイトル：最大エントロピー逆強化学習と逆最適化
19:45〜20:10 タイトル：TV Advertisement Scheduling by Learning Expert Intentions

講演概要：

発表者：中口悠輝（NEC）

タイトル：最大エントロピー逆強化学習と逆最適化
アブストラクト
　鈴木さんの発表の前に、鈴木さんの研究で使われている最大エントロピー逆強化学習・逆最適化の理論について解説する。

発表者：鈴木康央（NEC）

タイトル：TV Advertisement Scheduling by Learning Expert Intentions
アブストラクト
　KDD2019のApplied Data Science Trackで発表した論文を紹介する。TV広告はほとんどの民放TV局において一番の稼ぎ頭である。しかし近年インターネット動画の台頭や若者のTV離れによって、TV広告費はインターネット広告費に追い抜かれようとしている。そのためTV局は業務効率化を実施し、収益拡大のための施策を打つための人員を増やす必要がある。本発表では業務効率化の一環として、TV広告のスケジューリング自動化に関する取り組みを紹介する。このスケジューリングは、TV広告を各番組が持つ放送可能枠へ割り当てる作業を指す。放映スケジュールは、決められた予算内でなるべく多くの人に周知したい広告代理店と、なるべく少ない枠取りで代理店の要求を満たすことで多くの会社の広告を放送したいTV局との交渉の末の均衡点であるため、数理最適化問題として定式化したときの目的関数が不明瞭であることがこの問題の最大の特徴である。そこで我々はInverse Reinforcement Learningの数理最適化版であるInverse Optimizationを適用することで、目的関数の自動設計を行う手法を提案する。学習した目的関数をスケジューリング時に利用することによって、熟練者相当のスケジュールを自動で作成することができる。実データ検証を実施した結果、我々の手法は精度良く熟練者のスケジュールを再現できることを確認した。