前回の記事でCounterfactualについて紹介して、なんでランダム化試験だと因果効果が推定できるのかを示しました。
この記事では、観察研究での因果推論はどう考えるのか説明していきます。
観察研究での因果推論とは、8-9割くらいの臨床研究のテーマです。
でもこれを知らずして論文を書いている方が8-9割と推測します。
理解しておくと必ず役に立ちます。
Contents
観察研究の場合Counterfactualはこう考える
「アスピリン飲めば心筋梗塞が減るか」ということを考えてみます。
ランダム化試験では、
アスピリン飲んでる人と飲んでない人の属性が同じ
→アスピリン飲んでる人と飲んでない人のcounterfactual outcomeが同じ
→Pr (Ya=1=1|A=1) = Pr (Ya=1=1|A=0)
* Pr (Ya=1=1)とは、「もし全員アスピリンを飲んでいたとしたと仮定した時の心筋梗塞の確率」でした(counterfactual outcome)。
→これに「|A=1」をつけたら、「実際アスピリンを飲んでいる人のなかで」という意味です。
→変形すると、「Ya || A」となるのでした。
この条件をexchangeabilityというのでした。
exchangeabilityはランダム化試験だから成り立つのです。
じゃあ観察研究は?
もちろん、アスピリン飲んでいる人と飲んでいない人で性質が違うので、exchangeabilityは成り立たないですよね。
どうやるの・・・
・
・
・
・
「Conditional exchangeabilityが成り立つことを信じる」!!
?
??
この記事は、この意味がわかるようになることが目的です。
Conditional exchangeabilityとは??
これは簡単。
ある条件(condition)の下なら、exchangeabilityが成り立つ、という意味です。
ある条件とは、「もし〇〇と☓☓と・・・・が同じだったら」という条件。
そう。
「交絡因子の状況が同じだったら」という条件です!!
交絡因子をLとします(Lには年齢とか性別とか、色々含まれます)。
これが調整されたら=同じであると仮定されたら、というのは
「|L」
と書きます。
よってConditional exchangeabilityとは、
Ya || A |L
と書きます!!
この意味は、
Pr (Ya=1=1|A=1, L=l) = Pr (Ya=1=1|A=0, L=l)
ここで「L=l」とは、「Lが何らかの値として両辺が同じ」ということを意味します。
ふつう省略して
Pr (Ya=1=1|A=1, L) = Pr (Ya=1=1|A=0, L)
と書きます。
*更に言うと、Counterfactual outcomeはA=1でもA=0でも成り立つので、
Pr (Ya=1|A=1, L) = Pr (Ya=1|A=0, L)
なのです。
✔日本語でいうと、「L(交絡因子)が同じであれば、Aが1か0かに関わらず(実際アスピリンを飲んでいるいないに関わらず)、counterfactual outcomeが同じ」ということで、counterfactual outcomeとは「もし全員Aが1だったら(アスピリンを飲んでいたら)と仮定した時のYの確率(心筋梗塞の確率)」というわけです。
ちょっと難しく思われた方もしるかもしれません、すみません
数式出てくると寒気がしますよね。
実際、この数式がわかって得する人は、ほとんどいないと思います。
ちょっと自慢できるくらいです。
(*次回の中間因子解析には必要な知識です。。。)
でも、観察研究の因果推論はConditional exchangeabilityを仮定していることを知っておくのは大事です。
「交絡因子が調整されたら、2群はランダム化されたのと同じ」であることを仮定しているということです。
かなり強力だと思いませんか??
実際交絡因子が調整されきることなんてありえないですよね。
だって、「アスピリンを飲むくらい健康意識の高い状態」という交絡因子を調整する方法、なさそうです。
結局調整できる情報は、構造化した情報として存在する交絡因子の情報に限られます。
データがそもそもない交絡因子というのも必ず存在して、それはunmeasured confounderと言われます。
unmeasured confounderがない、ということが、観察研究で因果推論を行う仮定となります。
・
・
・
そう、観察研究で因果推論が成り立つことはないんです。
「Conditional exchangeabilityが成り立つことを信じてやる」のが、観察研究での因果推論です。
ではなぜやる?!?!?
多くは、その後のランダム化試験の布石です。
もしくは、ランダム化試験が行えない対象の研究。代表的なのは食事関連の研究です。
飲酒をランダム化することはできないですよね。
こういう場合、質の高い(conditional exchangeabilityがおそらく成り立つような)観察研究を複数行なったり、短期間のランダム化試験を行うことで、段々と知見が蓄積されていき、だんだん因果関係が明らかになっていく、という感じです。
「Lが何なのか」と「どう因果推論を行うか」は別な話
最後に、因果推論の理論のポイントです。
交絡因子(L)が何なのかというのは、ドメイン知識の話です。
因果推論というのは、それを前提として、どういうモデルで因果効果を計算するのか、という理論です。
かなり簡略化すれば、「Lで調整すればconditional exhangeabilityが得られる」という前提で色々こねくりまわしていくのが因果推論です。
*厳密に言えば、「それが交絡因子なのか」の確率を計算することができる因果推論の方法もありますが、かなり発展的な話です。
****
以上、観察研究での因果推論の話でした。
Conditional exchangeabilityが成り立つことを信じてやる、というものです。
ではまた。