TheWebConf'24 先取り勉強会（オンライン）

2024/04/17(水)18:30 〜 22:00 開催

ブックマーク

#機械学習, #HealthTech, #オープンイノベーション

イベント内容

概要

近年因果推論の知識を機械学習に応用したり、逆に因果推論の為に機械学習を応用するといった方法論が提案されています。この勉強会はCounterfactual Machine Learning (CFML) と呼ばれるこれらの手法に関する研究や実例の紹介を行う事を目的としたものです。機械学習 and/or 因果推論に関する論文を普段読んでいる研究者、学生、エンジニア、データサイエンティストの方を想定しておりますが、誰でもご参加いただけます。

今回は2024年5月にシンガポールで開催予定のTheWebConference 2024に採択済みの関連論文の内容を、学会に先立って、それぞれの著者にたっぷり紹介してもらう会になっています。

なお、CFMLに馴染みのない方は以下のサーベイやチュートリアルを見てみると良いかもしれません。

また、CFMLに関する世界初の教科書が4月13日(土)に日本語で発売される予定なので、こちらも参考になると思います。

反実仮想機械学習〜機械学習と因果推論の融合技術の理論と実践〜 (齋藤優太著　技術評論社)

実施方法

ZOOMを使用します。各自インストールをお願いします。 URLは当日（4/17）に、connpassのメッセージ機能で登録者に事前にお送りいたします。発表時間は約40分で、その後10分間の質疑応答の時間を設けます。

質疑応答は、sli.doを使用して行います。使用方法は以下の通りです。

connpassのメッセージ機能でお知らせしたURLにアクセスしてください
発表者に質問があれば、都度ここに書き込んでください（匿名可）。
質問は他の方も閲覧可能です。自分も聞きたいという質問があれば「いいね」ができます。
発表終了後時間が許す限り、発表者が「いいね」が多いものから優先して回答していきます。

注意事項

技術交流が目的の勉強会ですので、知識の共有および、参加者同士の交流を目的としない参加はお断りしています。参加目的が不適切だと判断される場合には、運営側で参加をキャンセルさせていただく場合がございます。

タイムテーブル

時間	内容
18:30 - 18:35	挨拶・諸連絡
18:35 - 19:25	発表①： Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems
19:25 - 20:15	発表②： Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction
20:15 - 21:05	発表③： Long-term Off-Policy Evaluation and Learning
21:05 -	（興味と時間がある方で）感想戦・雑談会

発表の詳細

発表論文：Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems (TheWebConf'24 採択)

論文リンク：https://arxiv.org/abs/2402.14369

発表者：富樫陸

プロフィール： CyberAgent AI Lab所属。推薦システムのための機械学習応用に関心があり、大規模なランキング予測における複雑な目的関数・モデルの下での実行可能な最適化手法を主に研究している。また、ABEMA、tappleのサービス内推薦システム開発における実装と分析にも携わる。

発表概要：求人サイトやマッチングアプリ、UGCプラットフォームなどのWebサービスにおいて、ユーザがコンテンツの生産者であることは珍しくない。そのため現代的な推薦システムは、コンテンツを消費するユーザだけでなく、生産者ユーザの満足度を同時に考慮する必要がある。このような背景から、生産者ユーザが推薦システムを通して得られる利益を議論するために『被推薦機会の公平性』という概念に基づく研究が急速に増えている。一方で既存の研究では公平性についての理論的な議論や指標の設計に終始しており、実問題を解くために十分な実行可能性を兼ね備える手法は極めて少ない。本発表では、実世界のデータ規模において実行可能な『被推薦機会の公平性』を考慮した手法を設計し提案する。まず最も高速な推薦手法であるiALSに公平性制約を追加することで大規模データにおけるスケーラビリティが失われることを示し、所望の目的関数を効率的に最適化する手法を設計する。大規模データにおける実験を通して、提案手法がiALSと同等の計算効率を達成しながら『被推薦機会』の制御を可能とすることを確認する。

発表論文：Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (TheWebConf'24 採択)

論文リンク：https://arxiv.org/abs/2402.02171

発表者：清原明加

プロフィール：2023年東京工業大学学士課程（経営工学）卒業、現在はコーネル大学コンピュータサイエンス学科博士課程在籍。人々の経済活動や行動選択を支援する意思決定システムでの機械学習・最適化技術の応用に興味があり、バンディットや強化学習アルゴリズムのオフライン評価、推薦システムにおける長期的効用最大化について研究中。

発表概要：推薦システムや広告、ヘルスケアにおける意思決定では、カテゴリの異なる複数のアイテムの組合せを評価したい場面に頻繁に出くわす。例えば、クーポンメールの最適化において、タイトルと添付画像、割引率、おすすめ商品の組合せを評価したい場面などだ。こうした意思決定の良し悪しを過去に集めたログデータを用いて行うオフ方策評価は有用であるが、上記のような組合せを考慮しようとすると、考慮すべき組合せ行動空間が大きくデータ効率が悪くなる問題が存在する。本発表では、こうした組合せ行動空間の大きさに対応するため、異なる組合せの類似性を利用した新たな推定量について紹介する。

タイトル：Long-term Off-Policy Evaluation and Learning (TheWebConf'24 採択)

発表者：齋藤優太

1998年北海道生まれ。2021年東京工業大学にて学士号取得。同年よりコーネル大学にてCFMLや推薦システムに関する研究を行う。NeurIPS・ICML・KDD・RecSys・WSDMなどの国際会議にて学術論文を発表。また多数の国内企業と連携して、CFLMの応用研究や社会実装にも従事。2021年日本オープンイノベーション大賞内閣総理大臣賞を受賞。2022年 Forbes Japan 30 Under 30及び孫正義育英財団第6期生に選出。著書に『施策デザインのための機械学習入門』『反実仮想機械学習』がある。

発表概要：アルゴリズムや方策の短期結果と長期結果は往々にして異なり、長期性能を推定したり、それに基づいて意思決定を下すことがより理想的である。例えば、クリックベイトアルゴリズムでは短期的なクリック数が増加する可能性はあるが、長期的なユーザー満足は低下するため、短期結果に惑わされずに評価を行えることが重要だろう。アルゴリズムの長期結果を推定するためにオンライン実験を実施できるかもしれないが、この方法では長期性能の評価に数ヶ月またはそれ以上の時間がかかり、より良いアルゴリズムを選択する手順として役立たずである。

本研究では、過去の蓄積データと数週間程度の短期実験のみを用いて、アルゴリズムの長期性能をより早期に推定する問題に取り組む。既存アプローチはsurrogacyと呼ばれる短期報酬に関する強い仮定を必要とするか短期報酬を有効活用できず、バイアスとバリアンスのいずれかに大きな問題を抱える。これに対し我々は、簡易な報酬関数の分解に基づく新しい枠組み「LOPE」を提案する。LOPEは、surrogacyよりも弱い仮定で動作し、短期報酬を有効活用することでバリアンスを大幅に削減できる。最後に、データが少ない、surrogacyが仮定できない、報酬のノイズが大きいなどの困難な状況においてLOPEが既存手法を大幅に上回る推定精度を発揮した実験結果を紹介する。