第36回 強化学習アーキテクチャ勉強会【今回から会場がKERNEL HONGOに変更となります】

2019/04/09(火)18:50 〜 19:45 開催
ブックマーク

イベント内容

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

今回からの注意点

  • DEEPCORE様のご厚意により,今回から会場がKERNEL HONGO(ユニゾ本郷四丁目ビル 3F)となります
  • 入室の際,参加者の把握のため,受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました(名刺をご提出いただく形でも構いません)
  • 19:00頃になると正面口(本郷通り沿い)にロックがかかりますので,(特に新会場の初回である今回については)なるべく遅刻しないようにお越しください.もし19:00をすぎる場合には,裏側の階段から3階に上がって頂く形になります.

ご協力の程,よろしくお願いいたします.

スケジュール

  • 18:50〜18:55 オープニング
  • 18:55〜19:45 論文紹介:Learning to Generalize from Sparse and Underspecified Rewards

講演概要:

発表者:斎藤惇(株式会社Nextremer)

  • タイトル:論文紹介:Learning to Generalize from Sparse and Underspecified Rewards

  • アブストラクト
    自然言語の指示文章に対応する行動の系列生成やデータベースの検索クエリの生成などを従来の強化学習の枠組みに適用しようとすると、系列全体に成功または失敗に対応する2値な報酬関数しか与えられないことが多い。 このような困難は物理環境に基づく問題設定には見られない特徴であるといえる。 また、同一の目的を達成する行動系列であっても指示文章が1つしか与えられない場合は、タスクを成功させる系列の探索に困難が伴う。 報酬が疎である場合は探索を行う必要がある一方で、省略されている文脈に対応する行動を生成できるような一般性も獲得する必要がある。 紹介論文は、このような報酬が疎であるだけでなく同時にタスクの達成軌跡を全て表現するための情報が省略されている場合においても有効な手法を提案した。 MAMLおよびBaysian Optimizationの枠組みを用いた手法として、それぞれ、Meta Reward Learning ( MeRL ) およびBaysian Optimization Reward Learning (BORL)が提案されている。これらの手法は、省略されている文脈に対応する行動の汎化度合いをValidation データによって評価して偶然の成功によって生成されないように学習しているとみなせる。

  • 参考文献
    [1] Learning to Generalize from Sparse and Underspecified Rewards, Rishabh Agarwal, Chen Liang, Dale Schuurmans, Mohammad Norouzi, https://arxiv.org/abs/1902.07198

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。