Counterfactual(反事実現実)を理解する【因果推論入門1】

独学で因果推論を学ぼうと思うと、どの解説も難しく感じます。

ある程度勉強している私がそのような日本語の解説をみても難しく感じる程なので、初学者にはかなりハードルが高いかも知れません。

このシリーズ、誰でもわかるように、かなり噛み砕いて疫学や因果推論のコンセプトを解説します。

今回の記事では、「counterfactual」「consistency」「exchangeability」という、因果推論の根本となる概念の説明です。

因果推論特有の数式にも慣れましょう。

 

 

Counterfactual(反事実現実)を理解する

Counterfactual(反事実現実)を理解する

因果推論をざっくりというと、「もし〇〇が起こっていなかったら☓☓となっていたか」を知ること。

今心筋梗塞だとして、もし飲酒をしてなかったら、心筋梗塞になっていなかったのかどうか

でもこんなのはわかりませんよね

 

*よく教科書に「タイムマシンがなきゃわからないですよね」ってありますが、タイムマシンがあってもわかりません。なぜなら、飲酒をずっとしてきた人が、その期間もし酒を全然のまなかったとしたら、という仮定の話だからです。そんな事、その人にはできません。

 

これがCounterfactualと言われてるものです。

で、これ=個人のCounterfactual、は誰にもわからないわけです。

なので、集団のCounterfactualを考えていきましょう、というわけです(つまり平均因果効果:こちら参照)。

個人で酒を飲むか飲まないかで心筋梗塞になるかならないかを比較したかったが、できない。

よって、集団で酒を飲むか飲まないかで心筋梗塞になるかならないかを比較しよう。

でも、酒を飲む集団と酒を飲まない集団の性質が全く一緒でないとだめだよね、

ということでランダム化を行ったり、色々統計的に操作していくわけです。

(万が一同じ個人で比較できるなら、性質が全く一緒なのは当然だから、統計的に調整する必要はありませんよね)

 

同じ集団で暴露因子だけが違う。

Counterfactualの概念でした。

 

 

今の状況もCounterfactualと言う!

これは言葉の定義の問題なんですが。

Counterfactualという言葉は、Counterfactual outcomeという風に使われます。

アウトカム=先程の例では心筋梗塞です。

*酒を飲む、というのが暴露因子ですね。

 

記号を使ってみましょう。頭良く見えます。

アウトカムをY、暴露因子をAとしたときに、

・酒を飲む人の心筋梗塞の確率:Pr (Y=1|A=1)

・酒を飲まない人の心筋梗塞の確率:Pr (Y=1|A=0)

です。

「|A=1」とは、「A=1の場合の」という意味の条件付き確率です。

でも、、、これはCounterfactualではありません!!!

だって、酒を飲む人の、実際の心筋梗塞の確率だから、普通に計算できます。

これこそ、因果関係と対比される、相関関係です。

 

*足したら、全部です。

Pr (Y=1|A=1) + Pr (Y=1|A=0) = Pr (Y=1)

「酒を飲んでいる人の確率+飲んでない人の確率=全体の確率」

当然ですね。

 

 

じゃあCounterfactualは??

・もし酒を飲んでいるとしたら心筋梗塞の確率はこうであった:Pr (Ya=1=1)

・もし酒を飲まなかったとしたら心筋梗塞の確率はこうであった:Pr (Ya=0=1)

こう書きます。

*実際の書き方は色々です。Y(a=1)とか、下付き文字とか。上付き文字はハーバード流だそうです。

 

ここで注意。

Ya=1=1の人の中には、実際にA=1の人もいるのです!!!

!!

つまり、実際に今酒を飲む人でも、Counterfactualの「もし酒を飲んでいるとしたらの人」にカウントされるのです。

 

*足したら全部、は成り立ちます。

つまり、

Pr (Ya=1=1) = Pr (Ya=1=1|A=1) + Pr (Ya=1=1|A=0)

ここで、

Pr (Ya=1=1|A=1)

は、「今酒を飲んでいる人が、もし酒を飲んでいたらというCounterfactual」です。

つまり、Counterfactualの英単語本来の意味としては、この集団はCounterfactualではありません(factualです)。

よって、

Pr (Ya=1=1|A=1) = Pr (Y=1|A=1)

なのです。

(これは細かく言えば条件があり、その条件が成り立つことを疫学用語でconsistencyと言います)

つまり、如何にPr (Ya=1=1|A=0)を求めるか、というのが課題なわけです。

 

 

ランダム化試験をやる理由を再発見!!

ランダム化試験をやる理由を再発見

ランダム化するとどうなると思います?

A=1の人の特徴と、A=0の人の特徴が一緒になります。

(飲酒はランダム化できないので、A=アスピリン内服、とでも考えておいて下さい)

つまり、

「A=1の人がもしA=1だったらの時のYの確率(そのまんま)」と

「A=0の人がもしA=1だったらの時のYの確率」

が同じということです。

 

数式でいうと、

Pr (Ya=1=1|A=1) = Pr (Ya=1=1|A=0)

世の中にはA=1の人とA=0の人しかいないので、これは

Pr (Ya=1=1)

と同じです。

*これを疫学用語でexchangeabilityといいます。

 

✔後ろからつなげてみよう!

Pr (Ya=1=1) = Pr (Ya=1=1|A=1):exchangeability

Pr (Ya=1=1|A=1) = Pr (Y=1|A=1):consistency

よって、

Pr (Ya=1=1) = Pr (Y=1|A=1)

これを言い換えると、

もし皆がA=1だったと仮定した時のY=1の確率(左辺)は、

A=1にランダム化された集団のY=1となる確率(右辺)と同じ

ということです。

 

そして求めたい因果効果とは、「もし全員A=1だったときのYと全員A=0だったときのYの差(もしくは比)」なので、

Pr (Ya=1=1) – Pr (Ya=0=1)

上の理論より、

Pr (Ya=1=1) – Pr (Ya=0=1) = Pr (Y=1|A=1) – Pr (Y=1|A=0)

左辺はCounterfactualの話なので直接求められないが、右辺は求められる!

ランダム化すれば因果効果が求められる!!!

という再発見でした。

 

 

最後に、皆混乱する exchangeability

exchangeabilityとは、A=1の人とA=0の人で、counterfactual outcomeが同じだ、ということでした。

式で書くと

Pr (Ya=1=1|A=1) = Pr (Ya=1=1|A=0)

 

これをよりシンプルに書いてみると、こうなります。

Ya || A    

* || は「独立」という意味です

これがハーバードの授業で皆混乱するポイント。

 

これは、A=1のときとA=0のときで、Yaが一緒である事を意味します。

つまり、

Pr (Ya=1=1|A=1) = Pr (Ya=1=1|A=0)

かつ

Pr (Ya=0=1|A=1) = Pr (Ya=0=1|A=0)

 

* Pr (Ya=1)というのをみたら、そこに「|A=1 (とか0)」を足してもいいんですよ、ということです。

 

よく混同されやすいのは

Y || A

これは、

Pr (Y=1|A=1) = Pr (Y=1|A=0)

かつ

Pr (Y=1|A=1) = Pr (Y=1|A=0)

つまり、YとAの相関関係が無いんですよ、という意味です。

 

*これこそ因果関係と相関関係の違いです!

こちら参照

 

以上、counterfactualの説明でした。続く。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.