DAGの限界:EMMとselection bias

DAG、疫学・臨床研究の分野では日夜使われています。

DAGは直接統計的な関連性を意味するので、因果推論理論のdeveloperでも共通言語です。

しかし、DAGには大きな限界があります。

この記事では、そんな限界について詳しく考えていきます。

*やや発展的です

 

 

DAGの限界:EMMとSelection bias

DAGの限界:EMMとSelection bias

この解説は、Miguel Hernanの論文に基づいています(Am J Epidemiol. 2017;185(11):1048-1050.)。

 

*これらが前提です:

・Effect measure modificationの基本について:この記事この記事参照

・Selection biasの定義について:この記事参照

→collidorをconditioningする、というものでした

 

****

こんな研究があります。

あるexposure (E)outcome (Y)への、本当の効果はRR = 1.69とします。

この研究、28%の参加者がlost follow-up (C)となってしまっており、

complete case analysisではRR = 2.05でした。

このRR = 2.05、本当の効果をoverestimateしている=バイアスがあるわけですね。

Cによる、selection biasが生じている

 

面白いのは、lost follow-upとなった割合は、暴露群と非暴露群で同じだということ!

つまり、EはCの原因ではない。

でも「corridor stratification bias」が産まれるためには、次のようなstructureが必要ですよねU = unmeasured confounders)。

どういうことやねん???

 

 

Selection biasは必ずしもCollidorを原因としないのだ!!!

ここで衝撃の事実。

selection bias = collidor stratification bias、と習うのですが、そうとも限らないのだと!!

 

*selection biasは、疫学的には「何らかのstratification」により生じるバイアス、というのが共通認識です。

stratification(DAGで言うと四角で囲うこと)によりバイアスが生じるためには、一般的にはcollidorが対象であるはずなのだが・・・ということ。

 

ここで我々は2つの異なるシナリオを考える必要に迫られるのです。

under the null」か、「off the null」か。

 

Under the nullの場合

Nullというのは、暴露因子がアウトカムに影響しない、ということ。

つまり、上のDAGで「E→Y」の矢印がない状態。

統計解析は「もしunder nullなら」という仮定でp-valueが計算し、実際に矢印があるかどうかを判断しますね。

 

もしunder nullの場合、lost follow-upがあろうが無かろうが、それがdifferentialでない以上(E→Cの矢印がない以上)バイアスが生じることはありません。

つまり通常営業通りということ。

 

ただ、もし本当にnullなら、E→YのRR=1なわけです。

つまり今のsituationの場合には当てはまらないということ(本当のRR=1.69なので)

 

 

Off the nullの場合

今回のsituationです。

logicalに考えてみましょう。

Cの有無でE→Yのeffectが変わるということは?

→CによるEffect measure modificationがある、ということと同義ですね!

 

ところで、EMMはDAGでは表せません

表現できるのはbiasのstructure = confoundingとselection biasのみ。

 

「EがYの原因である」+「CがUを介してYと関連する」

という条件下であれば、CはE→Yのeffect modifierになり得ます。

 

よって、Cをconditioningすることでselection biasが生じてしまうのです!!!

(DAG上backdoor pathがなくても)

 

 

そしてEffect 'measure' modificationである、という事実

さらに追い討ちをかけるのが、EMMはscaleによって「あるかないか」異なる、ということ。

つまり、risk ratioのscaleでなくとも、risk differenceのscaleではあり得るわけですね(この記事参照)。

より細かく言えば、RRとRDの両方のscale(multiplicative scale vs. additive scale)でEMMがない状況というのは、under the null以外あり得ません。

 

すると、常に何らかのEMMはあるということ。

上記はRRについてですが、もしRRのscaleでEMMがない=lost follow-upによるselection biasがない、としても、

RDのscaleではEMMがあり=lost follow-upによるselection biasがある、ということになる。

 

これもDAGの限界の一つ。

どのscaleの世界なのか、DAG上には示されません。

言えることは、

off the nullであれば、CがYと関連している以上、Cをconditioningすることでselection biasが生じてしまう(少なくともどちらかのscaleでは)

ということ。

 

 

まとめ

<DAGの限界>

・EMMを直接表せない

・関連性のscaleを表せない

 

<Selection biasとEMMのメカニズム>

・backdoor pathがなくとも、selection biasはEMMが原因となりうる

・EMMの条件は「EがYの原因」+「CとYに関連性あり」

・EMMはscale dependentである

 

<結果>

・under the nullでは、DAG上selection biasがなければ無し

・off the nullでは、Cをconditioningすることで、どちらかのscaleではselection biasが生じる

 

以上でした。

噛み砕いて書きましたが、どうでしたか?

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2021 All Rights Reserved Powered by AFFINGER5.