DAG(directed acyclic graph)というのは疫学研究で頻繁に使われます。
というか、疫学研究そのものを図示したものと言えます。
これが、Markov factorizationという確率モデルを必要十分で表している、という説明をしてみます。
少し発展的に聞こえるかも知れませんが、因果推論において土台となる基礎的事項です。興味ある方は是非。
DAGの真髄はMarkov factorizationだということの説明
まず、DAGとはこういうものでした。
飲酒の心筋梗塞に対する因果関係を調べたいとしたときのDAGです。
喫煙と性別が飲酒と心筋梗塞それぞれの原因になっており、これを交絡因子といいます。
交絡因子はモデルで調整しなければいけないのでした。
ALDH2遺伝子変異は飲酒するかの原因になるものです。
*交絡因子や中間因子は他にもたくさんありますが、ここではシンプルに、これだけが真実だとして話を進めます。
DAGは因果関係の向きを表しています。
矢印のしっぽが原因、先が結果。
これがMarkov factorizationを示しているとは、どういう意味なのでしょう?
Parentsという概念
まずparentsという概念を知りましょう。
これは単純で、
「矢印の先の因子において、矢印のお尻の因子がそのparents」
ということです。
上のDAGにおいては、
・YのparentsはAとL1とL2
・AのparentsはZ
・L1のparentsはない
といった感じです。
Markov factorizationとは?
さて本題です。
DAGがMarkov factorizationを表す、とはこういうことです:
「DAGが表すjoint density function f(v) = ∏j f (vj | vjのparents)」
例に当てはめれば、
f (v) = f (Y | A, L1, L2) * f (L1) * f (L2) * f (A|Z) * f (Z)
ということです。
これが意味するところは、
「もしparentsが一定であれば、それぞれの因子は、その過去の全ての因子と独立だ」
ということです。
*ちなみに例のDAGはincomplete DAGと言います。
complete DAGとは、「過去の因子が将来の全ての因子に矢印を出している状態」を言います。
だから何?
これはすごいことなんですよ。
だって、logicalに考えてつくるDAGが、そのまま確率分布を示しているんだから!
DAGが完璧であれば、完全な統計モデルを表すことができる、ということを意味しています。
(DAGが完璧となることはないのですが)
そして超重要なのが、「矢印がない」ということです。
これは相当強いassumptionで、なぜならその2つの間に因果関係がまったくない事を意味するからです。
例えば例では、ALDH2変異と心筋梗塞の間に矢印はありません。
つまりALDH2変異により心筋梗塞の頻度は変わらない、と言い切っています。
これが上のf (v)にも現れているわけです。
実は、実際関連がなくとも、矢印を書くのはありです。
その場合使える因果推論のアプローチが限られることになりますが(例えば上の場合Instrumental variable analysisはできなくなります)、より事実を反映しているモデルになります。もし本当に関連性がなければ、OR =1として解析されるだけのことです。
*実際ZとYの間に矢印がないことが、Instrumental variable analysisをするassumptionの一つなのでした。詳細はこちら。
結論
正しいDAGを書けば、正しい統計モデルが作れる。
ではまた。