BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:ICML2020 因果推論系論文 著者発表会 (オンライ
 ン)
X-WR-CALNAME:ICML2020 因果推論系論文 著者発表会 (オンライ
 ン)
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:783652@techplay.jp
SUMMARY:ICML2020 因果推論系論文 著者発表会 (オンライン)
DTSTART;TZID=Asia/Tokyo:20200722T190000
DTEND;TZID=Asia/Tokyo:20200722T210000
DTSTAMP:20260426T034957Z
CREATED:20200619T061710Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/78365
 2?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n概要\n機械
 学習に関するトップ国際会議 International Conference on Machi
 ne Learning (ICML2020)で、多くの因果推論に関連する論文が
 採択されました。本勉強会では、そのうち日本人によ
 って執筆された論文に関して、著者本人らが日本語で
 たっぷり時間をとって論文の背景や内容を共有します
 。\nなお、採択された論文一覧はこちらにあります。\n
 機械学習 and/or 因果推論に関する論文を普段読んでい
 る研究者、学生、エンジニア、データサイエンティス
 トの方を想定しておりますが、誰でもご参加いただけ
 ます。\n実施方法\nZOOMを使用します。各自インストー
 ルをお願いします。 \nURLは当日（7/22）に、connpassのメ
 ッセージ機能で登録者に事前にお送りいたします。\n
 一つの発表時間は約40分で、発表資料（日本語 or 英語
 ）はイベント後に公開する予定です。\n質疑応答は、sl
 i.doを使用して行います。 使用方法は以下の通りです
 。\n\nconnpassのメッセージ機能でお知らせしたURLにアク
 セスしてください\n発表者に質問があれば、都度ここ
 に書き込んでください（匿名可）。\n質問は他の方も
 閲覧可能です。自分も聞きたいという質問があれば「
 いいね」ができます。\n発表終了後時間が許す限り、
 発表者が「いいね」が多いものから優先して回答して
 いきます。\n\n注意事項\n技術交流が目的の勉強会です
 ので、知識の共有および、参加者同士の交流を目的と
 しない参加はお断りしています。\n参加目的が不適切
 だと判断される場合には、運営側で参加をキャンセル
 させていただく場合がございます。\nタイムテーブル\n
 \n\n\n時間\n内容\n\n\n\n\n19:00 - 19:05\n挨拶・諸連絡\n\n\n19:0
 5 - 19:45\n発表①：Counterfactual Cross-Validation\n\n\n19:45 - 20:25
 \n発表②：Few-shot Domain Adaptation by Causal Mechanism Transfer\n\n
 \n20:25 - 21:05\n発表③：Statistically Efficient Off-Policy Policy Gr
 adients\n\n\n\n※ 適宜休憩を取ります。当日予告なく時間
 配分、内容が変更になる可能性がございます。\n発表
 の詳細\nタイトル：Counterfactual Cross-Validation: Stable Model S
 election Procedure for Causal Inference Models\n発表者：齋藤優太 
  (東京工業大学 経営工学系 学士課程4年)\nプロフィー
 ル： \n主に因果推論と機械学習の融合技術を用いた情
 報検索システムのバイアス除去に関する研究を行う。
 また、CyberAgent\, Sony\, ZOZO\, SMNなどの国内企業と連携し
 て、因果推論 x 機械学習領域の社会実装や実証研究を
 進めている。\n論文リンク: https://arxiv.org/abs/1909.05299\n
 スライドリンク：https://speakerdeck.com/usaito/counterfactual-cro
 ss-validation-stable-model-selection-procedure-for-causal-inference-model
 s-gong-kai-yong\n論文概要：\n機械学習的な汎化誤差最小化
 の定式化に基づく因果効果予測手法が乱立傾向にあり
 ます。またそれらの手法は、多くのハイパーパラメー
 タを有しています。そうした背景から、各環境につい
 て最適な予測手法とハイパーパラメータを選択すると
 いう手順の重要性が増している一方で、その手順に関
 する研究はあまり進んでいません。本研究では、観測
 可能なデータのみを用いてデータドリブンに、因果効
 果予測手法のモデル選択やハイパーパラメータチュー
 ニングを行うための方法を提案します。また、ベンチ
 マークデータセットを用いて、既存のヒューリスティ
 ックな評価指標よりも提案手法がより良い性能を持つ
 モデルを候補集合の中から探し当てられることを実証
 します。\nWe study the model selection problem in conditional average
  treatment effect (CATE) prediction. Unlike previous works on this topic\
 , we focus on preserving the rank order of the performance of candidate C
 ATE predictors to enable accurate and stable model selection. To this end
 \, we analyze the model performance ranking problem and formulate guideli
 nes to obtain a better evaluation metric. We then propose a novel metric 
 that can identify the ranking of the performance of CATE predictors with 
 high confidence. Empirical evaluations demonstrate that our metric outper
 forms existing metrics in both model selection and hyperparameter tuning 
 tasks.\nタイトル：Few-shot Domain Adaptation by Causal Mechanism Tra
 nsfer\n発表者：手嶋毅志 (東京大学大学院 新領域創成科
 学研究科 博士課程2年)\nプロフィール： 少数データか
 ら統計的機械学習を行う方法論の理論的研究を行って
 います．特に因果的情報を学習に活用するというアプ
 ローチの研究を進めています．\n論文リンク: https://arxi
 v.org/abs/2002.03497\nスライドリンク：https://takeshi-teshima.git
 hub.io/talks/2020-07-22/few-shot-domain-adaptation-by-causal-mechanism-tr
 ansfer.pdf\n論文概要：\n本研究では手元のデータが少数
 しかない場合にも精度の良い予測器を学習する方法論
 として「ドメイン適応 (Domain adaptation\; DA)」の実現方法
 を考えます．ドメイン適応とは，手元のデータが限ら
 れているときに「手元のデータとは確率分布が異なる
 が関連性のある追加的データ」を学習に役立てるとい
 う方法論です．ドメイン適応の方法を開発する上で最
 も重要な問いは，「『関連性』として異なるデータ間
 にどのような関係を仮定するか（転移仮定）」です．
 本研究では転移仮定として「データ分布の背後にある
 『因果モデル』が共通である」という仮定を用いるこ
 とができる可能性を探索しました．例えば仮想的応用
 例として医療記録から疾病予測を行うための予測器を
 ，ある地域に特化して学習したいという状況を考えま
 す．その際，異なる地域でのデータを活用しようとし
 ても，生活習慣が異なるなどの理由でデータの分布そ
 のものは大きく異なる可能性があります．しかしなが
 ら同じ疾病は地域によらず同じ機序を持つと期待する
 ことはできます．こういった状況下で「背後にある因
 果的機構が同一」という事前知識を利用して精度の良
 い学習を行う方法を提供することが本研究の理想的ゴ
 ールです．本論文では，具体的には各ドメインの確率
 分布の背後に構造的因果的モデルがあると仮定したう
 えで，「その構造方程式が共通である」という転移仮
 定を用いることを提案しました．この仮定を利用して
 ドメイン適応を行う方法を開発し，その理論的解析を
 通して提案法が統計的学習においてどのように貢献す
 るかを明らかにし，さらにProof-of-conceptとなる実データ
 実験を通して手法の妥当性を確認した結果を報告して
 います．\nWe study few-shot supervised domain adaptation (DA) for reg
 ression problems\, where only a few labeled target domain data and many l
 abeled source domain data are available. Many of the current DA methods b
 ase their transfer assumptions on either parametrized distribution shift 
 or apparent distribution similarities\, e.g.\, identical conditionals or 
 small distributional discrepancies. However\, these assumptions may precl
 ude the possibility of adaptation from intricately shifted and apparently
  very different distributions. To overcome this problem\, we propose mech
 anism transfer\, a meta-distributional scenario in which a data generatin
 g mechanism is invariant among domains. This transfer assumption can acco
 mmodate nonparametric shifts resulting in apparently different distributi
 ons while providing a solid statistical basis for DA. We take the structu
 ral equations in causal modeling as an example and propose a novel DA met
 hod\, which is shown to be useful both theoretically and experimentally. 
 Our method can be seen as the first attempt to fully leverage the structu
 ral causal models for DA.\nタイトル： Statistically Efficient Off-Po
 licy Policy Gradients\n発表者：上原雅俊 (Harvard大学統計学
 科 博士課程３年)\nプロフィール：\n強化学習と因果推
 論の境界を主に研究しています。\n論文リンク: \n1. http
 s://arxiv.org/abs/2002.04014\n2. https://arxiv.org/abs/1908.08526\n論文
 概要：\n医学や経済学の応用分野で、過去の時系列デ
 ータを用いて、方策を評価し最適な方策を学習する手
 法（Off-policy evaluation\, Off-policy learning）は重要になって
 きていている。また理論的な研究も因果推論や強化学
 習のコミュニティでとても盛んになっている。しかし
 、既存の有名な推定手法（Sequential IPWや Marginal sturctural
  model）はホライズン数が長くなるにつれ推定量の誤差
 が指数的に爆発するという、ホライズン数の呪いとい
 う問題がある。実際に、モバイルアプリを用いたMicro r
 andomized trialsではホライズンが何百となり、ホライズン
 数の呪いは深刻な問題になる。\n本研究ではMDPにおけ
 る方策評価と方策勾配評価の誤差の漸近下限を導出し
 、実はこの下限はホライズン数に指数的ではなく多項
 式的に依存することが示した。そして、その下限を達
 成する推定量を提案しホライズン数の呪いを（部分的
 に）解いた。提案手法は二つの推定量（周辺密度比とQ
 関数）を組み合わせたメタアルゴリズムであり、DoublyR
 obustというロバスト性を持つ。そして提案した方策勾
 配推定を用いた学習手法の収束レートを示し、やはり
 レートがホライズン数に対して多項式的に依存するよ
 うにできることを示した。また本発表では近年の因果
 推論と強化学習界隈におけるOff policy learningの重要な論
 文たちとの関連も、時間が許す限り、俯瞰的に発表す
 る予定である。\n1.\nPolicy gradient methods in reinforcement learn
 ing update policy parameters by taking steps in the direction of an estim
 ated gradient of policy value. In this paper\, we consider the statistica
 lly efficient estimation of policy gradients from off-policy data\, where
  the estimation is particularly non-trivial. We derive the asymptotic low
 er bound on the feasible mean-squared error in both Markov and non-Markov
  decision processes and show that existing estimators fail to achieve it 
 in general settings. We propose a meta-algorithm that achieves the lower 
 bound without any parametric assumptions and exhibits a unique 3-way doub
 le robustness property. We discuss how to estimate nuisances that the alg
 orithm relies on. Finally\, we establish guarantees on the rate at which 
 we approach a stationary point when we take steps in the direction of our
  new estimated policy gradient.\n2.\nOff-policy evaluation (OPE) in reinf
 orcement learning allows one to evaluate novel decision policies without 
 needing to conduct exploration\, which is often costly or otherwise infea
 sible. We consider for the first time the semiparametric efficiency limit
 s of OPE in Markov decision processes (MDPs)\, where actions\, rewards\, 
 and states are memoryless. We show existing OPE estimators may fail to be
  efficient in this setting. We develop a new estimator based on cross-fol
 d estimation of q-functions and marginalized density ratios\, which we te
 rm double reinforcement learning (DRL). We show that DRL is efficient whe
 n both components are estimated at fourth-root rates and is also doubly r
 obust when only one component is consistent. We investigate these propert
 ies empirically and demonstrate the performance benefits due to harnessin
 g memorylessness.
LOCATION:オンライン
URL:https://techplay.jp/event/783652?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR
