半熟仮想株式会社との共同研究の紹介

はじめに

初めまして。アドバンスドテクノロジーラボ(通称ATL)の吉住宗朔です。本日は半熟仮想株式会社との共同研究の紹介をしたいと思います。

共同研究のきっかけ

私はデータサイエンティストとして働き始めて7年目になりますが、普段の業務では自分が知っている知識の範囲で対応してしまいがちで、新しい技術のキャッチアップに課題を感じていました。

そんな時、反実仮想機械学習の研究者である半熟仮想株式会社の齋藤優太さんから「論文を書いているだけだと手法や得られた知見が思ったように活用されないというもどかしさがあり、また今後より有用な研究を行なっていくためにも実際の企業で問題になっている課題が知りたいので、一緒に共同研究しませんか？」とお話をいただき、共同研究を始める事になりました。

齋藤さんは東京工業大学の学部時代からNeurIPS・ICML・KDD・RecSys・WSDMと言った機械学習のトップカンファレンスに論文を通した経験があり、現在はコーネル大学のPh.D.に通いつつ、イェール大学助教の成田悠輔さんと創業した半熟仮想株式会社で国内の企業と共同研究や研究成果の社会実装に取り組んでいるという経歴をお持ちの方です。またこれまでに「施策デザインのための機械学習入門」という機械学習の実践を新たな視点から見つめ直す書籍を企業との共同研究経験をもとに執筆されたり、研究成果等が評価され日本オープンイノベーション大賞内閣総理大臣賞や Forbes 30 Under 30 にも選出されています。

共同研究の取り組み内容

共同研究の主な取り組み内容として「論文の勉強会」と「案件の相談会」の2つがあるので、それぞれ紹介します。

論文の勉強会

論文の勉強会では、齋藤さんがICMLやNeurIPSなどのトップ国際会議で発表した最新論文や時には未公開論文の内容について、日本語で解説していただいています。

直近で紹介していただいた論文は以下の2本です。

Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling
- 行動数が多い場合の文脈付きバンディットにおけるオフ方策評価の話。
  - オフ方策評価とは、あるアルゴリズム（方策と呼ばれる）の性能を現在運用中の方策が収集したログデータのみを用いて評価する手法の事。
- 報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を提案した。
- OffCEMは既存推定量よりも行動数の増加に対して非常に頑健である。
POCEM: Off-Policy Learning for Large Action Spaces via the Conjunct Effect Model
- 行動数が多い場合のオフ方策学習の話。
  - オフ方策学習とは、新たな方策を現在運用中の方策が収集したログデータのみを用いて学習する手法の事。
- しかし、行動数が多い場合、既存の回帰ベースと勾配ベースのアプローチが共にうまく方策を学習できない問題がある。
- 1段階目の方策は有望な行動クラスタを特定し、2段階目の方策は有望クラスタ内で最良のアクションを選択するというPOCEMアルゴリズムを提案した。
- 回帰ベースと勾配ベースのアプローチを融合させる事で、それぞれの問題点がうまく解決されることを理論的・実験的に示した。

↓勉強会の様子

最新の研究内容が知れるのはもちろんですが、少人数なので齋藤さんの研究の姿勢などもお聞きする事が出来ます。

「どのように研究テーマを見つけていますか？」という質問をしたところ「企業との共同研究などで、実社会で問題になっている課題を見つけて、それを一般化したものに解決策が出せるか？この論文を出す事で忙しい社会人の人に使いたいと思って貰えるか？という事を意識して、研究テーマを見つけて論文を書いている。」というお話があり、実用性を第一に考えて研究する姿勢に感銘を受けました。 (齋藤さんが、この勉強会を開催した理由の1つとして「自分の論文が実際の企業で使えるか？実運用する場合の課題は何か？を確認する。」と言う目的もあるそうです。)

案件の相談会

相談会は、日々推進している当社の案件の中から、オフライン評価の専門家の知識が必要そうなものを選んで、月1で開催しています。

齋藤さんは論文のテーマを決める方針として「実社会の役に立つか？」を重視しているので、論文を書くために研究的な案件を選ぶというよりは、実際に社内で課題感のある案件を相談しています。 (齋藤さんが共同研究をする理由の1つとして「実際の企業で問題になっている事は何か把握したい。」と言う目的もあるそうです。)

そのため、社内で実際に本番反映されている事例もあります。「共同研究」と言っても論文を書く事がゴールではなく、実際の案件で成果を出す事を第一に考え、その中で良い課題・手法が見つかれば論文化も視野に入れて相談しています。

↓相談会では手法についての議論が白熱する事もあり、時にはその場で手書きで画面共有しながら議論する事もあります。

具体的な事例の紹介

次に、実際の相談の中から直近で持ち上がっている案件を簡単に紹介します。

LTVを考慮した割引施策の配布方法
- 割引施策をする際に、これまでは1回の施策だけを評価していましたが、長期間の効果を考慮したときの評価・最適化方法をどうするか？を相談しています。
サービス全体の売上向上を考慮したレコメンドアルゴリズム
- レコメンド施策を実行した時に、「レコメンド枠経由での売上は上がったが、サービス全体では伸びていない。」という問題がありました。
- そこで、サービス全体の売上向上を目的変数とする定式化を考えられないか？を相談しています。
バンディットアルゴリズムを採用したA/Bテスト基盤作成のための技術相談
- コンテンツを最適化するために、バンディットアルゴリズムを採用したA/Bテスト基盤を作成したいと考えています。ロジックやログの取り方など、実装上の注意点を相談しています。

おわりに

最後までお読みいただきありがとうございました。共同研究では普段の業務ではサーベイ出来ないような知見が得られるので、新しい知識のインプットに役立ちました。また、齋藤さんは研究者ではありますが、研究的な手法に拘らずに実現工数も考えて解決策を検討してくださるので、案件としてのアウトプットも出てきています。 (もちろん、論文化を視野に入れる場合は、アイデアの作り方から論文構成・実験計画についてアドバイスがもらえたり、また論文を書くためだけの手法ではなくちゃんと存在する課題を出発点として、論文化にも耐えうる一石二鳥の定式化や手法を検討していただけます。)

リクルートでは本件以外でも大学を初めとする研究機関とも共同研究が行われており、働きながら技術的な研鑽を積む事や、対外発表などの活動も可能です。ご興味のある方は、以下の採用ページをご覧ください。