DAGは疫学の基本的な考え方です。臨床系雑誌での認知も高まってきており、例えばJAMA系の雑誌はこれを前提としていたりします。
そこでこのシリーズでは、DAGの基本、その臨床研究への応用を「数式なしでわかりやすく」解説します!
誤用している方も多いです。
皆様の研究にお役立ていただければ幸いです。
臨床研究にDAGを活かす【その1】:DAGを知る
DAGとは、因果関係を図式化したものです。
これは確率統計学的な裏付けがあり、そこから色々理論が生まれるのですが、これを始めるとかなり難しくなるため、略します。
「DAGはすごいツールだ」と考えておけばOKです。
*causal DAGとstatistical DAGという区別もありますが、無視でOKです。
さて、DAGを使えるようになると何が良いのでしょうか。
一番は、「自分がその研究で何がしたいか」をはっきりさせることができることかと思います。AimやObjectiveを書いていても、それがはっきりしない「ぼやけた」論文をよくみます。
二番目は、confoundersとselection biasをはっきり理解する事ができる事です。結果、より良いStudy designを考える事ができます。
三番目は、より発展的な因果推論の礎となることです。Mediation analysisやtime-varying exposureなどがそれに当てはまります。
モチベーションが上がったでしょうか?
学ぶのはそんなに難しくないので、是非理解していきましょう。
*体系的に習ったことがない方も是非復習ください。
DAGを描いてみる
DAGで大事なのは、自分が興味ある因子と調べたい因果関係をはっきりさせる事です。
ここでは、
サプリ内服が癌発症の原因となるか
調べたいとします。
もし因果関係があれば:
因果関係がなければ:
のようにかきます。
矢印が「原因」から「結果」に流れるようにつながるわけです。
<ポイント>
ここで大事なのは、DAG上の「サプリ内服」は、当然「内服あり」か「内服なし」のどちらかの値をとる因子だということです。
もし矢印があれば、「内服なし」から「内服あり」に変わった時、癌発症リスクが変わるわけです。
なお、ここでいう「サプリ内服」をexposure、「癌発症」をoutcomeといいます。
ここまでは簡単ですね。
交絡因子 (Confounder)
DAGで一番重要なのは「交絡因子(Confounder)」です。
confounderとは、exposureの原因かつoutcomeの原因となるものをいいます。
つまりDAGではこんな感じです。
年齢が高いほどサプリ内服している率は高く、年齢が高いほど癌リスクが高い。
つまり年齢はexposureとoutcomeの共通の原因=confounderなわけです。
そして本記事の最重要なポイントがこちら。
矢印は因果関係の向きだが、繋がってさえいれば(疑似の)相関関係となる!!
これを理解できたら第一章クリアです。
詳しくみていきましょう。
年齢はサプリ内服の原因なので、この両者には当然相関関係があります。具体的には高齢ほどサプリ内服率が高い。
同様に、年齢と癌にも相関関係があります。高齢ほど癌リスクが高い。
いま、サプリ内服と癌の間に矢印がない=ここには因果関係がないことを考えています(DAG通り)。
*因果関係を調査する時は、このように「因果関係がなかったと仮定したらどうなるか」という帰無仮説にのっとって解析することが原則です。
しかし、高齢者はサプリ内服率と癌リスクの両者が高いわけですね。
若年者は両方低い。
つまり年齢を介して、サプリ内服と癌に相関関係が生じてしまっています。
おわかりでしょうか。
これを一般化していうとこうなります。
Exposureとoutcomeの間に因果関係がなくとも、交絡因子を介して(疑似の)相関関係は生じうる
矢印で繋がっているからわかりやすいですね。
*データからわかることは相関関係のみです。つまり、それぞれの参加者について「サプリ内服」「癌発症」「年齢」というデータがあるだけです。このデータで「年齢」を差し置いて(=無視して)、「サプリ内服」と「癌発症」に相関関係があった!!といっても、それは(年齢を介した)疑似の相関だよ、というわけです。
******************
でも、今知りたいのはサプリ内服と癌の因果関係です。
交絡因子を介した相関関係があっては困ります。
そこで、年齢が50台の人だけに注目することにしました。
50台といっても開きがありますが、ここではそれは問題にならないと仮定します。
すると、年齢を介した相関関係はそれほど問題でなくなりそうです。
これをDAGではこうかきます:
その因子を「調整する」ことで、その因子を四角で囲います。
すると、いままで
サプリ内服-年齢-癌発症
と流れていた相関関係(矢印で辿れる)が、
年齢
でブロックされるのです!!
もし年齢だけが交絡因子であれば、年齢でブロックすれば(調整すれば)交絡によるバイアスはなくなる
このように疫学では考えます。
*実際は「年齢をどう調整するか」によって、得られる結果は変わってきます。そういう意味では「バイアス=真の値からのずれ」は生じえます。しかしそれは「統計学的なバイアス」であり、疫学的なバイアスではありません。
************
実際には、もっとたくさんの交絡因子がありますね。
これらを全て調整する必要があります。
「何が交絡因子なのか」は、「何がexposureとoutcomeの共通の原因なのか」と論理的に考えることにより、リストアップします(解析前に)。
そして解析では、それらを調整するわけです。
これが観察研究の基本となります。
ランダム化試験のすごさ
なお、すべての交絡因子をリストアップ仕切ることは不可能ですね。
これが観察研究の限界です。
そこでランダム化試験が出てきます。
Exposureをランダム化すると、exposureの原因はなくなります!!
*outcomeの原因はそのまま残ります。
DAG的はこんな感じになります:
サプリ内服に向いている矢印がなくなるので、疑似の相関関係が生じ得なくなるわけです。
わかりやすいですね。
なお、観察研究とランダム化試験を徹底的に比較した記事を以前書いております。
是非参考にどうぞ。
まとめ
まとめです。
・DAGでの矢印は「因果関係」である
・Confounderとは、exposureとoutcomeの共通の原因である
・矢印でつながっていれば、その向きに関わらず「疑似の相関関係」が生じる
・Confounderを「調整」することで、疑似の相関関係をなくす事ができる
こんなところで第一回は終了です。
次回は、「矢印でつながっていても、疑似の相関関係があるとは限らない」という事例を見ていきます。
そう、「矢印でつながっていれば・・・」というのは嘘なのです(すみません)。。