当たり前じゃん、と思われるかもしれませんが、世の中の機械学習系のリサーチは「データから因果関係を導く」ことを目標にしているものたくさんあります。
なぜデータだけでは因果関係が導けないか、実は1951年に分かっていたことなのです!
いわゆる「シンプソンのパラドックス」です。
この説明と解釈を考えていきます。
Contents
データからだけでは因果関係は導けないんですよという話【シンプソンのパラドックス】
シンプソンのパラドックスというのは、
1951年に発表された論文「the interpretation of interaction in contingency tables」
が基になっています。
その後も色々議論され、wikipediaにも当然のっている、割と有名なパラドックス(=直感に反すること)だと思います。
これは次のようなContingency tableを考えます。
全部で52枚のトランプ。
当然赤が26枚、黒が26枚。
Courtというのは絵柄、つまりジャック·クイーン·キングで、計3*4=12枚。
Plainというのは1~10の計40枚。
このうち、赤ちゃんがPlainを好んで汚してしまった(=Dirty)とします。
これを基に、「DirtyとCleanそれぞれの、色と絵柄の関係」を考えます。
具体的に、Court, Plainそれぞれの赤の割合がどちらが多いかをみてみましょう。
Dirtyに関しては、Court: 4/7=57%, Plain: 8/13=62%
Cleanに関しては、Court: 2/5=40%, Plain: 12/27=44%
お!?
Dirtyの中では、赤の割合が黒より多い
Cleanの中でも、赤の割合が黒より多い
でもDirtyとClean合わせたら、赤の割合は黒と一緒のはず・・・
シンプソンさんはどう解釈している?
シンプソンはこう言っています。
「sensible answerは(全体で見た時の)赤の割合=黒の割合だ」
そりゃそうですよね。
実は、この論文の前半では、「なぜ層別化されたもの(=dirtyやclean)で関連性があっても、全体で関連性がないことがあるか」を数学的に示しています。
これだけだとそりゃそうだ、という話なんですが、次の例はみなさんどう考えますか?
同じTableだけどラベルが異なる場合
同じ数字が並んでるTableですが、トランプの例とラベル(状況)が異なります。
観察研究で、治療と生存の関連性をみており、男性·女性に層別化しています。
数字自体はトランプの例と同じなので、
男性の生存率:治療なし: 4/7=57%, 治療あり: 8/13=62%
女性の生存率:治療なし: 2/5=40%, 治療あり: 44%
でも全体では治療と生存率に関連性なし
となります。
男性で有効、女性で有効なのに全体では効果なし?!?!
これがシンプソンのパラドックスなのでした。
再度、シンプソンさんはどう解釈している?
シンプソンはこう言っています。
「sensible answerは(層別化したときの)治療は有効、という結論だ」
どう思いますか?
解釈はこちら
この論文は1951年に発表されたものなので、これ以上の説明はありません。
しかし、シンプソンの主張は「データだけから因果関係を解釈することはできない」というものかと予想されます。
同じデータなのに、
・トランプの例では「色→絵柄」に因果関係はない
・治療の例では「治療→生存率」という因果関係がある
という結論だからです。
*因果関係と相関関係の違いについてはこちら参照
どういう構造になっているかは、現在なら簡単に可視化できます。
DAGで。
DAGを使ってみる
こういう感じになります。
✔トランプの例で「赤ちゃんが汚す」という行為は、トランプの色と絵柄の共通の結果。
なので暴露因子とアウトカムの結果である、Colliderというものに該当します。
Colliderは、「そのままなら大丈夫だが、調整すると暴露因子ーアウトカムに見せかけの関連性が生じてしまう」ものです。
つまり層別化することは「禁」です。
✔治療の例では、「性別」は治療行為と生存率の共通の原因。
つまり交絡因子です。
交絡因子は「調整しなければ暴露因子ーアウトカムに見せかけの関連性が生じてしまう」ものです。
よって層別化しないことが「禁」です。
調整するべきなのは交絡因子のみ
これから言えることは、データだけぱっと渡されても、その意味合いがわからないと全く異なるアプローチをとってしまいうる、ということです。
調整するべきなのは交絡因子のみ。
そして交絡因子かどうかということは、論理的に解釈する他はありません。
中間因子、Colliderは「調整してはいけない」因子。
ここをはっきりさせることが、疫学のみならず全ての因果推論にとって重要なポイントです。
結論
シンプソンのパラドックスは、データからだけでは因果関係は導けないんですよという話。
つっこんで解釈すると、交絡因子とColliderの性質の違い。
調整すべきなのは交絡因子のみ。
ではまた。