理化学研究所 革新知能統合研究センター (AIP) オープンスペース
〒103-0027 東京都中央区日本橋1-4-1 日本橋一丁目三井ビルディング 15階
インセンティブサイエンスの算法セミナー(発表は日本語で行われます).
Yusuke Narita and Kohei Yata (Yale Univerity)
サイバー広告制度設計:バンディットデータからの効率的な因果機械学習
What is the statistically most efficient way to do counterfactual policy evaluation and optimization with batch data of exploration feedback? For logged data from a class of contextual bandit algorithms, we consider generalized-method-of- moment offline estimators for the average treatment effect and the expected reward from a counterfactual policy. Our estimators are shown to minimize the asymptotic variance among all consistent estimators. We apply our estimators to evaluate and optimize online ad allocation.
といったお話のあと、バンディット・因果推論・経済制度設計の交差点についてプロの皆さんにいくつかの疑問と話題を提示し、ブレストする予定です.