データからだけでは因果関係は導けないんですよという話【シンプソンのパラドックス】

当たり前じゃん、と思われるかもしれませんが、世の中の機械学習系のリサーチは「データから因果関係を導く」ことを目標にしているものたくさんあります。

なぜデータだけでは因果関係が導けないか、実は1951年に分かっていたことなのです!

いわゆる「シンプソンのパラドックス」です。

この説明と解釈を考えていきます。

 

データからだけでは因果関係は導けないんですよという話【シンプソンのパラドックス】

データからだけでは因果関係は導けないんですよという話【シンプソンのパラドックス】

シンプソンのパラドックスというのは、

1951年に発表された論文「the interpretation of interaction in contingency tables」

が基になっています。

その後も色々議論され、wikipediaにも当然のっている、割と有名なパラドックス(=直感に反すること)だと思います。

 

これは次のようなContingency tableを考えます。

トランプ

全部で52枚のトランプ。

当然赤が26枚、黒が26枚。

Courtというのは絵柄、つまりジャック·クイーン·キングで、計3*4=12枚。

Plainというのは1~10の計40枚。

このうち、赤ちゃんがPlainを好んで汚してしまった(=Dirty)とします。

 

これを基に、「DirtyとCleanそれぞれの、色と絵柄の関係」を考えます。

具体的に、Court, Plainそれぞれの赤の割合がどちらが多いかをみてみましょう。

Dirtyに関しては、Court: 4/7=57%, Plain: 8/13=62%

Cleanに関しては、Court: 2/5=40%, Plain: 12/27=44%

お!?

 

Dirtyの中では、赤の割合が黒より多い

Cleanの中でも、赤の割合が黒より多い

でもDirtyとClean合わせたら、赤の割合は黒と一緒のはず・・・

 

 

シンプソンさんはどう解釈している?

シンプソンはこう言っています。

「sensible answerは(全体で見た時の)赤の割合=黒の割合だ」

そりゃそうですよね。

 

実は、この論文の前半では、「なぜ層別化されたもの(=dirtyやclean)で関連性があっても、全体で関連性がないことがあるか」を数学的に示しています。

これだけだとそりゃそうだ、という話なんですが、次の例はみなさんどう考えますか?

 

 

同じTableだけどラベルが異なる場合

同じ数字が並んでるTableですが、トランプの例とラベル(状況)が異なります。

治療

観察研究で、治療と生存の関連性をみており、男性·女性に層別化しています。

数字自体はトランプの例と同じなので、

男性の生存率:治療なし: 4/7=57%, 治療あり: 8/13=62%

女性の生存率:治療なし: 2/5=40%, 治療あり: 44%

でも全体では治療と生存率に関連性なし

 

となります。

男性で有効、女性で有効なのに全体では効果なし?!?!

これがシンプソンのパラドックスなのでした。

 

 

再度、シンプソンさんはどう解釈している?

シンプソンはこう言っています。

「sensible answerは(層別化したときの)治療は有効、という結論だ」

どう思いますか?

 

 

解釈はこちら

この論文は1951年に発表されたものなので、これ以上の説明はありません。

しかし、シンプソンの主張は「データだけから因果関係を解釈することはできない」というものかと予想されます。

 

同じデータなのに、

・トランプの例では「色→絵柄」に因果関係はない

・治療の例では「治療→生存率」という因果関係がある

という結論だからです。

*因果関係と相関関係の違いについてはこちら参照

 

どういう構造になっているかは、現在なら簡単に可視化できます。

DAGで。

 

 

DAGを使ってみる

DAGを使ってみる

こういう感じになります。

 

✔トランプの例で「赤ちゃんが汚す」という行為は、トランプの色と絵柄の共通の結果

なので暴露因子とアウトカムの結果である、Colliderというものに該当します。

Colliderは、「そのままなら大丈夫だが、調整すると暴露因子ーアウトカムに見せかけの関連性が生じてしまう」ものです。

つまり層別化することは「禁」です。

 

✔治療の例では、「性別」は治療行為と生存率の共通の原因

つまり交絡因子です。

交絡因子は「調整しなければ暴露因子ーアウトカムに見せかけの関連性が生じてしまう」ものです。

よって層別化しないことが「禁」です。

 

 

調整するべきなのは交絡因子のみ

これから言えることは、データだけぱっと渡されても、その意味合いがわからないと全く異なるアプローチをとってしまいうる、ということです。

調整するべきなのは交絡因子のみ。

そして交絡因子かどうかということは、論理的に解釈する他はありません。

中間因子、Colliderは「調整してはいけない」因子。

ここをはっきりさせることが、疫学のみならず全ての因果推論にとって重要なポイントです。

 

 

結論

シンプソンのパラドックスは、データからだけでは因果関係は導けないんですよという話。

つっこんで解釈すると、交絡因子とColliderの性質の違い。

調整すべきなのは交絡因子のみ。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2021 All Rights Reserved Powered by AFFINGER5.