DAGの真髄はMarkov factorizationだということの説明

DAG(directed acyclic graph)というのは疫学研究で頻繁に使われます。

というか、疫学研究そのものを図示したものと言えます。

これが、Markov factorizationという確率モデルを必要十分で表している、という説明をしてみます。

少し発展的に聞こえるかも知れませんが、因果推論において土台となる基礎的事項です。興味ある方は是非。

 

DAGの真髄はMarkov factorizationだということの説明

まず、DAGとはこういうものでした。

DAGの真髄はMarkov factorizationだということの説明

飲酒の心筋梗塞に対する因果関係を調べたいとしたときのDAGです。

喫煙と性別が飲酒と心筋梗塞それぞれの原因になっており、これを交絡因子といいます。

交絡因子はモデルで調整しなければいけないのでした。

ALDH2遺伝子変異は飲酒するかの原因になるものです。

*交絡因子や中間因子は他にもたくさんありますが、ここではシンプルに、これだけが真実だとして話を進めます。

 

DAGは因果関係の向きを表しています。

矢印のしっぽが原因、先が結果。

これがMarkov factorizationを示しているとは、どういう意味なのでしょう?

 

 

Parentsという概念

まずparentsという概念を知りましょう。

これは単純で、

「矢印の先の因子において、矢印のお尻の因子がそのparents」

ということです。

 

上のDAGにおいては、

・YのparentsはAとL1とL2

・AのparentsはZ

・L1のparentsはない

といった感じです。

 

 

Markov factorizationとは?

さて本題です。

DAGがMarkov factorizationを表す、とはこういうことです:

「DAGが表すjoint density function f(v) = ∏j f (vj | vjのparents)」

 

例に当てはめれば、

f (v) = f (Y | A, L1, L2) * f (L1) * f (L2) * f (A|Z) * f (Z)

ということです。

 

これが意味するところは、

「もしparentsが一定であれば、それぞれの因子は、その過去の全ての因子と独立だ」

ということです。

 

*ちなみに例のDAGはincomplete DAGと言います。

complete DAGとは、「過去の因子が将来の全ての因子に矢印を出している状態」を言います。

 

 

だから何?

これはすごいことなんですよ。

だって、logicalに考えてつくるDAGが、そのまま確率分布を示しているんだから!

DAGが完璧であれば、完全な統計モデルを表すことができる、ということを意味しています。

(DAGが完璧となることはないのですが)

 

そして超重要なのが、「矢印がない」ということです。

これは相当強いassumptionで、なぜならその2つの間に因果関係がまったくない事を意味するからです。

例えば例では、ALDH2変異と心筋梗塞の間に矢印はありません。

つまりALDH2変異により心筋梗塞の頻度は変わらない、と言い切っています。

これが上のf (v)にも現れているわけです。

 

実は、実際関連がなくとも、矢印を書くのはありです。

その場合使える因果推論のアプローチが限られることになりますが(例えば上の場合Instrumental variable analysisはできなくなります)、より事実を反映しているモデルになります。もし本当に関連性がなければ、OR =1として解析されるだけのことです。

 

*実際ZとYの間に矢印がないことが、Instrumental variable analysisをするassumptionの一つなのでした。詳細はこちら

 

 

結論

正しいDAGを書けば、正しい統計モデルが作れる。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.