Mediation analysis解説その2。
ここでは、causal mediation analysisでの概念を解説していきます。
具体的には:total effect, controlled direct effect, pure/total natural direct/indirect effect
これがわかると、causal mediation analysisで何をやっているか、わかるようになります。
Contents
Causal mediation analysisの概念をつかむ!
以下、Aをexposure, Mをmediator, Yをoutcomeとし、Y(a)などをcounterfactual outcomeとします。
それぞれ0-1のカテゴリー変数とします。
具体例として、Aを遺伝子変異、Mを喫煙、Yを肺がん、と考えましょう。
*例えばPr[Y(a=1)]なら、全ての人がA=1であったと仮定した時のoutcomeの確率、ということを意味します。
→つまり、もし全ての人が喫煙していた時の肺がん発症確率、という意味です。
Mediation analysisでは、
A→Yという全体の効果を、直接A→Yという経路とA→M→Yという経路に分解したい
ということがmotivationなのでした。
✔︎まずTotal Effect (TE)とは?
TEは「A→Yという全体の因果効果」を意味します。
よって、
TE = Y(a=1) - Y(a=0)
です。
以上。
✔︎Controlled direct effect (CDE)
CDEは「もし全員のMが同じ値に設定できたとした時のA→Yの因果効果」です。
これはMを同じ値に設定することにより、直接A→Yという効果を検証しているので、direct effectです。
Mには0と1の可能性があるので、CDEには2種類あります。
CDE(m=0) = Y(a=1, m=0) - Y(a=0, m=0)
CDE(m=1) = Y(a=1, m=1) - Y(a=0, m=1)
です。
以下、natural direct/indirect effectという概念を説明していきますが、難しければCDEだけで十分です。
というのは、natural effectを推定することはそもそも妥当でない、と考える研究者もいるので。
このあたりは追って解説していきます。
✔︎Natural direct effect (NDE)
NDEは「もし全員のMをA=0だったとした時の状態に設定できたとした時の、A→Yの因果効果」です。
CDEと同じようにMの値に介入するのですが、
・直接Mの値に介入するのがCDEで、
・「A=0という介入の結果みられるMの値」にMを設定するのがNDEです。
これもMを同じ値に設定することにより、直接A→Yという効果を検証しているので、direct effectです。
数式では
NDE = Y(a=1, m=M(a=0)) - Y(a=0, m=M(a=0))
となります。
*ここで、
なんでM(a=0)なのか、M(a=1)に設定してもよいのではないか
と思う方、鋭いです。
「Mを仲介しない」という意味では、どちらも当てはまりそうです。
実は、
・上のNDEはpure NDE
・M(a=1)としたNDEはtotal NDE
と言われます。
この解説はこの記事の後半で行います。
✔︎Natural indirect effect (NIE)
NIEは「Aを一定として、MがA=1とした場合とMがA=0とした場合を比較することによるA→M→Yの効果」です。
これはA→M→Yというpathwayを検証しているのでindirect effectです。
数式の方がわかりやすいかもしれません。
NIE = Y(a=1, m=M(a=1)) - Y(a=1, m=M(a=0))
です。
*NDE同様、なぜY(a=0, m=M(a=1)) - Y(a=0, m=M(a=0))でないのでしょう?
実は、
・このa=0バージョンがtotal NIE
・元のa=1バージョンがpure NIE
という定義です。
✔︎PureとTotal
最後にこの区別。
「A-M interactionの効果を含めたのがTotal, 含めないのがPure」です。
どういうことでしょう?
一般的にA-M Interactionの効果というのは、A=1かつM=1の時初めて認められる効果を言います。
(つまり1 + 1 ≠ 2、ということです)
→今は「Aに介入する」counterfactualを考えています。
→このときinteractionは「A=1かつM(A=1)の時に認められる効果」です。
→つまりY(a=1, m=M(A=1))を含むeffectが、total NDEなりtotal NIEなわけです。
*より詳細には、追って説明して行きます。これはeffect decompositionという概念につながっていきます。
✅ここで重要なポイント。
特に断りがない限り、
·NDEとはpure NDEのこと
·NIEとはtotal NIEのこと
です。
*論文などで紛らわしいのは、pure NDEをpure direct effect (PDE)とかとしていること。
→そもそもpure/totalという概念が説明される際には「Natural」という単語は省かれるかもしれません。注意。
TE, NDE, NIEの関係
概念が分かったところで、関係性を見ていきます。
直感的には「TE = NDE + NIE」にならなければなりません。
だってA→Y全体の効果を、Mを介さない+Mを介す効果に分けているわけだから。
これは簡単に証明されます。
・TE = Y(a=1) - Y(a=0)でした。
・NDE = Y(a=1, m=M(a=0)) - Y(a=0, m=M(a=0))ですが、後ろのY(a=0, m=M(a=0))はY(a=0)と同じです。
→なぜなら、A=0に介入したYの結果をみているにすぎないからです。
・NIE = Y(a=1, m=M(a=1)) - Y(a=1, m=M(a=0))ですが、同様に前のY(a=1, m=M(a=1)) = Y(a=1)です。
よって、
NDE + NIE
= Y(a=1, m=M(a=0)) - Y(a=0) +Y(a=1) - Y(a=1, m=M(a=0))
= Y(a=1) - Y(a=0)
= TE
ということでした。
*繰り返しになりますが、ここでのNDE = pure NDEであり、NIE = total NIEです。
Proportion mediated/eliminated
最後に「どれくらいがMを仲介している効果か」という指標を紹介します。
✔︎まずProportion mediated (PM)
これは単純で、
PM = NIE / TE
です。
✔︎そしてproportion eliminated (PE)
これはCDEに基づく指標で、
PE = (TE - CDE) / TE
です。
→CDEはCDE(m=0)とCDE(m=1)の2つがあるので、2つのPEがあります。
*なぜPMとPEがあるのかというと、本当はPMを知りたいけどPMが計算できない状況が多々あるためです。
→これは、NIEとNDEを計算するために必要なassumptionが強烈すぎるためです。
→CDEを求めるためのassumptionは弱いので、
→CDEしか求められない=PEしか求められない場合、というのがあるのです。
まとめ
TE = Y(a=1) - Y(a=0)
CDE(m) = Y(a=1, m) - Y(a=0, m)
(pure) NDE = Y(a=1, m=M(a=0)) - Y(a=0, m=M(a=0))
(total) NIE = Y(a=1, m=M(a=1)) - Y(a=1, m=M(a=0))
これらを求めるのがcausal mediation analysisです。
ではまた。