Paper Reading, "On Causal and Anticausal Learning", ICML-12

“On Causal and Anticausal Learning”In Proc. of ICML-12D3 Yusuke IWASAWA

Paper Reading 1

書誌情報

• Bernhard Schölkopf, Dominik Janzing, Jonas Peters, Eleni Sgouritsa, Kun Zhang

• Max Planck Institute for Intelligent System, Germany• ICML2012• 概要：

– 因果構造に関する知識を機械学習タスクにどう利用可能かの分析– 因果構造自体を推定する話ではない

• 選定理由：– この分野よく知らないけど重要そう

• 推論：政策 A （ Intervention ）が本当に効果があるのかを予想する

– Deep Learning 本の 16 章 “ Representation Learning” でも重要な役割• 事前学習はどのようなときにうまくいくのかなど

2

Outlines1. Introduction （ English ）2. Causal Model Setting3. Anticausal Model Setting4. Empirical Experiments

3

Main Topic: Causal Structure （因果構造）

• Causal Structure is...– The graph that represents the relationship

between variables

X Y

X Y

4

Causal

Anticausal

• Input causes output• Ex. House pricing

• X: Feature of houses• Y: Price

• Output causes input• Ex. Iris

• X: Feature of lily• Y: Type of iris plants

5RQ: How ML could benefit from the structure?

This paper gives simple explanations by how the causal structure determines best solutions for some ML tasks

6This paper not includes/includes

Not Includes

Includes

• Theorems• Novel experimental data

• Systematic explanation of how causal structure facilitate statistical ML

• Empirical evaluations of how the above explanation is consistent with (many) real world examples

Summary of Results:• How causal structure facilitate ML?

– In causal setting, SSL could not works well– In anticausal setting, SSL could works well – and similar explanations on many other settings

• How the explanation is consistent with real world examples?– They verified that the explanation is consistent

with real world results using more than 26 datasets

7

Summary of Introduction (Japanese)

• 因果構造＋機械学習– 因果関係の構造に関する知識が，機械学習のタスクを解くため

にどう重要かをいくつかの仮定のもと分析

• いろいろな設定で実験※

– 半教師あり学習（ SSL ），転移学習，コンセプトドリフト etc• 結果：

– 半教師あり学習がうまくいくかどうかに因果構造が大きく関わっていることを確認

– 実データセット（ 26 以上）を利用して上記の説明が正しいことを確認

※ 時間の関係上ここでは一部のみを扱います

8

Notations

• P(C) ~ C, P(E) ~ E• P(X) ~ X, P(Y) ~ Y• X が原因で Y が結果の場合， X が結果で Y が原因の場合の 2 通り分析

原因（ Cause ）

結果（ Effect ）E = φ(C, NE)

ノイズ（互いに独立）

メカニズム

9

10OverviewSelect Analysis

Targets Explain Assumptions Give Best Solution for each ML Tasks

Compare Best Solutions

• Independence

• Richness• etc

• Covariant Shift

• SSL• Transfer

Learning• Concept

Drift• etc.

Best solutions for Causal Structure

X YCausal

X Y

Anticausal

因果構造に関する知識をどう役立てられるのかを検証

Best solutions for Anticausal

Structure

11Assumptions of this paperCausal Sufficiency

• ２つの独立なノイズ変数（ NC と NE が存在している）

• 原因と結果の間に交絡がない？

Independence of Mechanism and Input （重要）• P(E|C) と P(C) は独立• [Janzing & Scholkopf, 2010]• 重要なので次スライドで説明

Richness of functional causal models

• 因果構造の同定は 2 変数であっても仮定なしには難しい

• 古典的には PC や FCI により解ける[Spirtes et al, 19933; Pearl, 2000]

Additive noise models

• 因果構造の同定を行うためのモデルの 1 つ [Hoyer et al., 2009]

• 本発表では，因果構造は同定できているものとして進める

いずれも因果推論の分野では行われてきた仮定っぽい．ここが Novel というわけではない．

12Independence of Mechanism and Input• P(E|C) と P(C) は独立• C ： MTG でのプレゼンのクオリティ• E ：卒業できるかどうか• P(E|C) ：あるクオリティのプレゼンを行った学生が卒業

できる確率

• P(C) は入って来る学生によりばらつく• P(C) が変化したからといって， P(E|C) は変化しない• 逆に， P(E|C) が変化したからといって， P(C) は変化しな

い

13P(E) と P(C|E) は独立か

• 結論：一般に独立ではない[Janzing &scholkopf, 2010; Daniusis et al., 2010]

• E ：卒業できるかどうか• P(E) ：卒業できる確率• P(C|E) ：卒業できた人がどのようなプレゼンをしてた

か• どちらも P(C) や P(E|C) の変化に影響される

Outlines1. Introduction2. Causal Model Setting3. Anticausal Model Setting4. Empirical Experiments

14

What is Causal?

• 入力 X が原因 C 、出力 Y が結果 E であるような設定• 例：駅からの近さや部屋の広さを入力、家賃を出力とする場合

• そもそも理想的な関数 φ があるので f を求めるのも簡単と期待される

原因 X から結果 Y への写像 f

15

ML Tasks for Analysis

• 複数の設定で検証• 時間の関係上本発表では Type1 のみを扱う

Type1: 入力に関する情報がある場合

Type2: 出力に関する情報がある場合

Type3: 入出力に関する

情報がある場合

情報がある場合入力に関する

情報がある場合入力に関する

情報がある場合

共変量シフト

半教師あり学習(SSL)

分布の変化

新しいサンプル

転移学習

コンセプトドリフト

入力分布 P(X) が異なるデータ有り

同じ分布 P(X) の新たなデータ有り

出力分布 P(Y) が異なるデータ有り

同じ分布 P(X) の新たなデータ有り

ノイズのみが変化したデータ有りANM におけるノイズ NXNYが異なる

ANM における Φ が異なる

16

17分析の構造

• Given ：与えられる条件• Goal ：目的• Solution ：– 与えられた条件下で目的を達成する最適な解法

• Note ：特記事項• Assumption ：– 追加の仮定

杉山将，非定常環境下での学習：共変量シフト適応，クラスバランス変化適応，変化検知

Case: Covariant Shift （共変量シフト）

• Given: – P(X, Y) からのサンプル群– P’(X) からのサンプル群

• Goal:– P’(Y|X) を推定

• Solution:– 独立性の仮定から， P’(X) は P’(Y|X) に関する情報を持たない– ゆえに， P(Y|X)=P’(Y|X) と推定するのが良い

（共変量シフトの手法はうまくいかない）

18

杉山将，非定常環境下での学習：共変量シフト適応，クラスバランス変化適応，変化検知

Case: SSL （半教師あり学習）

• Given: – P(X, Y) からのサンプル群– P(X) からの新しいサンプル群

• Goal:– P (Y|X) を推定

• Solution:– 独立性の仮定から， P(X) は P(Y|X) に関する情報を持たない– ゆえに，単純な教師あり学習が良い

（半教師あり学習はうまくいかない）

19


20

What is Anticausal?

• 入力 X が結果 E 、出力 Y が原因 C であるような設定• 例： lily, MNIST

• すなわち、原因 E から結果 C への関数 f を求める

21

原因 X から結果 Y への写像 f

Causal と逆向き

Case: Covariant Shift （共変量シフト）

• Given: – P(X, Y) からのサンプル群– P’(X) からのサンプル群

• Goal:– P’(Y|X) を推定

• Solution:– P(Y) が変化したのか P(X|Y) が変化したのかを "LDC” により検証

• 前者の場合，“ Inverting Control” により P’(Y) を推定• 後者の場合，“ Estimating causal conditions” を利用して P’(X|Y) を推定

– LDC などについては割愛（論文 4 章参照）　– 要は， P’(X) の情報を活用することができる

（共変量シフトの手法が効果的）

22

Case: SSL （半教師あり学習）

• Given: – P(X, Y) からのサンプル群– P(X) からの新しいサンプル群

• Goal:– P(Y|X) を推定

• Note:– P(X) と P(Y|X) は独立ではない

• c.f. P(Y) と P(X|Y) は独立– ゆえに新たなサンプルによる P(X) のより良い推定が効果的で

ありうる（半教師あり学習が効果的）

23

24SSL の一般的な仮定との整合性

• いずれも， P(X) と P(Y|X) がどう繋がるべきかに関する仮定

• P(X) と P(Y|X) が独立ではうまくいかないのは当然

Cluster Assumption

P(X) に関して同じクラスタに属するサンプルは同じクラス

Low density separation assumption

クラスが曖昧な部分のP(X) の密度は小さい

Semi-supervised smoothness assumption

学習される関数（すなわち，分布 P(Y|X) の期待値）は P(X) が大きい部分では滑らかである


25

26実験設定

• 各データセットが次のいずれかに割り当て– Anticausal ：入力 X が結果，出力 Y が原因– Causal ：入力 X が原因，出力 Y が結果– Unclear ：どちらか不明

• 半教師あり学習がうまくいくかを検証– ここまでの説明 / 仮説が正しければ、

1) Causal については SSL はうまくいかない2) Anticausal については SSL はうまくいく

Semi-Supervised Learning

• 26 のデータセットで確認• Causal ではうまくいかないことを確認

27

教師

あり

学習

との差

Semi-supervised Regression 28

Anticausal• 教師あり学習より半教師あり学習の場合で

RMSE が低下• 半教師ありにより精度改善• Wilcoxon 検定で有意差あり（ p値=0.0156 ）

Causal• 半教師ありにより精度は微妙に改善• Wilcoxon 検定では有意差なし（ p値

=0.6523 ）

Wilcoxon 検定参考資料： http://kusuri-jouhou.com/statistics/wilcoxon.html

http://kusuri-jouhou.com/statistics/wilcoxon.html




29まとめ

• 本発表では，いくつかの仮定のもと因果構造がML タスクにどう影響を与えるのか分析した– 例）– Causal の場合： SSL はうまくいかない– Anticausal の場合： SSL がうまくいきうる

• 実験結果も上記の説明をサポートしている• 因果構造は ML タスクをよりよく解く上で必要

詳しく知りたい人： Judea Pearl で検索

• “ジューディア・パール（ Judea Pearl 、 1936年 9月4日 - ）はイスラエル系アメリカ人の計算機科学者で哲学者。人工知能への確率的アプローチとベイジアンネットワークを発展させたことで知られている（確率伝搬法を参照）。また、構造モデルに基づいた因果的かつ反事実的推論の理論を発展させた。” （ Wikipediaより抜粋）

• 2011年： ACMチューリング賞受賞

30

交絡（ Confounding ）とは

• 交絡（こうらく、英 : Confounding ）は、統計モデルの中の従属変数と独立変数の両方に（肯定的または否定的に）相関する外部変数が存在すること。そのような外部変数を交絡変数（ confounding variable ）、交絡因子（ confounding factor 、confounder ）、潜伏変数（ lurking variable ）などと呼ぶ。したがって科学的研究では、第一種過誤（従属変数が独立変数との因果関係にあるという偽陽性の結論）と呼ばれるこれらの要因を避けるよう制御する必要がある。 2 つの観測された変数のそのような関係を擬似相関という。すなわち交絡が存在する場合、観測された現象の真の原因は交絡変数であるにもかかわらず、独立変数を原因と推論してしまう。

31

因果構造とグラフィカルモデルの違い

• 因果構造：– データの構造を表すもの？

• グラフィカルモデル：– 機械学習タスクを解く上での因果構造に関する

仮定？

32

33Wilcoxon 検定

• http://kusuri-jouhou.com/statistics/wilcoxon.html



34その他参考になりそうなサイト

• 識別/生成モデルの観点から見たRubin/Pearlの統計的因果推論（＊既に一定の予備知識のある方向け）

• 因果推論の基礎

http://takehiko-i-hayashi.hatenablog.com/entry/2014/07/09/015442






http://www.slideshare.net/hatsuru/ss-42739150

35独立である例

• C ：遺伝子配列• E ：ある特徴が発現するかどうか

Technology

Paper Reading, "On Causal and Anticausal Learning", ICML-12