DAG、疫学・臨床研究の分野では日夜使われています。
DAGは直接統計的な関連性を意味するので、因果推論理論のdeveloperでも共通言語です。
しかし、DAGには大きな限界があります。
この記事では、そんな限界について詳しく考えていきます。
*やや発展的です
Contents
DAGの限界:EMMとSelection bias
この解説は、Miguel Hernanの論文に基づいています(Am J Epidemiol. 2017;185(11):1048-1050.)。
*これらが前提です:
・Effect measure modificationの基本について:この記事とこの記事参照
・Selection biasの定義について:この記事参照
→collidorをconditioningする、というものでした
****
こんな研究があります。
あるexposure (E) → outcome (Y)への、本当の効果はRR = 1.69とします。
この研究、28%の参加者がlost follow-up (C)となってしまっており、
complete case analysisではRR = 2.05でした。
このRR = 2.05、本当の効果をoverestimateしている=バイアスがあるわけですね。
Cによる、selection biasが生じている。
面白いのは、lost follow-upとなった割合は、暴露群と非暴露群で同じだということ!
つまり、EはCの原因ではない。
でも「corridor stratification bias」が産まれるためには、次のようなstructureが必要ですよね(U = unmeasured confounders)。
どういうことやねん???
Selection biasは必ずしもCollidorを原因としないのだ!!!
ここで衝撃の事実。
selection bias = collidor stratification bias、と習うのですが、そうとも限らないのだと!!
*selection biasは、疫学的には「何らかのstratification」により生じるバイアス、というのが共通認識です。
stratification(DAGで言うと四角で囲うこと)によりバイアスが生じるためには、一般的にはcollidorが対象であるはずなのだが・・・ということ。
ここで我々は2つの異なるシナリオを考える必要に迫られるのです。
「under the null」か、「off the null」か。
Under the nullの場合
Nullというのは、暴露因子がアウトカムに影響しない、ということ。
つまり、上のDAGで「E→Y」の矢印がない状態。
統計解析は「もしunder nullなら」という仮定でp-valueが計算し、実際に矢印があるかどうかを判断しますね。
もしunder nullの場合、lost follow-upがあろうが無かろうが、それがdifferentialでない以上(E→Cの矢印がない以上)バイアスが生じることはありません。
つまり通常営業通りということ。
ただ、もし本当にnullなら、E→YのRR=1なわけです。
つまり今のsituationの場合には当てはまらないということ(本当のRR=1.69なので)
Off the nullの場合
今回のsituationです。
logicalに考えてみましょう。
Cの有無でE→Yのeffectが変わるということは?
→CによるEffect measure modificationがある、ということと同義ですね!
ところで、EMMはDAGでは表せません。
表現できるのはbiasのstructure = confoundingとselection biasのみ。
「EがYの原因である」+「CがUを介してYと関連する」
という条件下であれば、CはE→Yのeffect modifierになり得ます。
よって、Cをconditioningすることでselection biasが生じてしまうのです!!!
(DAG上backdoor pathがなくても)
そしてEffect 'measure' modificationである、という事実
さらに追い討ちをかけるのが、EMMはscaleによって「あるかないか」異なる、ということ。
つまり、risk ratioのscaleでなくとも、risk differenceのscaleではあり得るわけですね(この記事参照)。
より細かく言えば、RRとRDの両方のscale(multiplicative scale vs. additive scale)でEMMがない状況というのは、under the null以外あり得ません。
すると、常に何らかのEMMはあるということ。
上記はRRについてですが、もしRRのscaleでEMMがない=lost follow-upによるselection biasがない、としても、
RDのscaleではEMMがあり=lost follow-upによるselection biasがある、ということになる。
これもDAGの限界の一つ。
どのscaleの世界なのか、DAG上には示されません。
言えることは、
off the nullであれば、CがYと関連している以上、Cをconditioningすることでselection biasが生じてしまう(少なくともどちらかのscaleでは)
ということ。
まとめ
<DAGの限界>
・EMMを直接表せない
・関連性のscaleを表せない
<Selection biasとEMMのメカニズム>
・backdoor pathがなくとも、selection biasはEMMが原因となりうる
・EMMの条件は「EがYの原因」+「CとYに関連性あり」
・EMMはscale dependentである
<結果>
・under the nullでは、DAG上selection biasがなければ無し
・off the nullでは、Cをconditioningすることで、どちらかのscaleではselection biasが生じる
以上でした。
噛み砕いて書きましたが、どうでしたか?
ではまた。