Mendelian Randomization、最近論文で時々目にすることもあるかと思います。
でも実際どうやるのか、知っている方はほとんどいないのはないでしょうか。
それもそのはず、Mendelian Randomizationは比較的発展的な因果推論の方法だからです。
具体的には、Instrumental Variable (IV) analysisという手法に分類されます。
この記事では、前提知識がない方が理解できるよう、わかりやすく解説していきます。
Contents
Mendelian Randomizationについてわかりやすく解説!
私は留学する前、この手法の論文が全然理解できませんでした。
自分でどんなに調べても全然わからず、これを学ぶことが疫学修士を取る一つの目的でした(今思えばかなり限定的な目的ですが)。
実際は因果推論の基本から学んでいって、半年目くらいに学ぶトピックでした。
この記事では前提知識がなくともMendelian Randomizationがわかるよう、解説してみました。
Mendelian Randomizationの解説ブログは他にもたくさんあるのですが、因果推論や統計的な知識がないと理解が難しいものが多いです。
多くの方にとって重要なのはコンセプトとLimitationを理解することなので、そこに重点をおいて解説しています。
まず目的は?
Medelian Randomizationの目的は、
「〇〇と☓☓の因果関係を証明すること」
にあります。
重要なのは、〇〇も☓☓も遺伝子には関係ないということです。
例えばここでは、「飲酒と心筋梗塞の因果関係」について調べてみることにしましょう。
通常の疫学研究だったら、
・飲酒している人としていない人の集団(コホート)をつくる
・10年間フォローアップして、心筋梗塞になった人を同定する
・飲酒の有無と心筋梗塞の有無の関連性を、交絡因子で調整した統計モデルで推定する
という流れになります。
*交絡因子で調整とは:
例えば飲酒している人の方が喫煙している率が高いかもしれません。喫煙は心筋梗塞のリスクを上げるので、単純に飲酒している人 vs していない人、ではフェアな比較になりません。そのため、「喫煙率が同じだったら」という仮定をして統計比較をするということです。
→交絡因子は喫煙の他にもたくさんあります。年齢や性別、食事、運動、糖尿病、高血圧・・・・
ここでポイントは、全ての交絡因子で調整しきる事は不可能だ、ということです。
詳細な食事情報、運動情報、服薬状況、生活環境、、、これらを網羅的に調べたデータベースはほとんどありません。
なので多くの研究は、完全に交絡因子で調整しきる事は不可能だ、という前提で行われます。
※ランダム化試験は交絡因子をなくすために行われますね。理想的なランダム化試験では交絡因子がないと考えてよいわけです。
→でもランダム化できるものとできないものがあります。
→飲酒は当然ランダム化できない=観察研究で因果推論するしかない、ということです。
交絡因子で調整するのはなかなか大変だ。
これを完全にすっ飛ばす。
つまり
「交絡因子で調整せずに因果関係を推定する」
というのが、IV analysisでありMendelian Randomizationです。
そんな事が可能なのでしょうか?
Mendelian Randomization, IV analysisの原理
そのために、「Instrument」というものが必要です。
これがコアとなります。
Instrumentとは、以下の3つの性質を満たす因子を言います。
飲酒と心筋梗塞の因果関係を調べるとして、
A) 暴露因子(この場合飲酒)と関連するもの
B) アウトカム(この場合心筋梗塞)と、暴露因子を介してのみ関連するもの
C) Instrumentとアウトカムに交絡因子がないもの
このInstrumentが見つかると、なんとびっくり次の式が成り立つのです。
飲酒の心筋梗塞への影響=Instrumentの心筋梗塞への影響÷Instrumentの飲酒への影響
普通は交絡因子で調整する必要があるのに、交絡因子の「こ」の文字も出てきていませんね。
これがInstrumental variable (IV) analysisのすごさです。
******
さて、具体的に「Instrument」とは何なのでしょう。
そう。
遺伝子変異はInstrumentなんじゃないか、と言われてきたわけです。
例えば「お酒を飲むと赤くなってしまい酒を飲めない遺伝子(ALDH2)の変異」を考えてみます。
これは、以下のようにInstrumentの3つの条件を満たしそうです:
A) 暴露因子(飲酒するか)とは関係ある
→ALDH2の変異があると飲めないから、関係あり
B) アウトカム(この場合心筋梗塞)と、暴露因子を介してのみ関連する
→ALDH2が直接心筋梗塞の原因になるとは言われていない。
→もしALDH2が心筋梗塞の原因になるとしたら、ALDH2変異により飲酒量に変化があるから、としか考えられない
C) Instrumentとアウトカムに交絡因子がない
→ALDH2変異があるかどうかは生まれつき(=ランダムに)決まる。
→言い換えると、ALDH2変異の原因になるような因子がない
→ALDH2といかなるアウトカムの間にも交絡因子はありえない
すごいですね。
よって、ALDH2変異は、飲酒と心筋梗塞の関係においてInstrumentだと言えそうなのです。
※3つ目のポイントから、遺伝子変異をInstrumentとして解析するIV analysisが、Mendelian Randomizationと言われるようになりました。
Mendelian Randomization=完璧?
繰り返します。
もしInstrumentさえ見つかれば、交絡因子なんて全く知らずとも、
AのYへの影響=InstrumentのYへの影響÷InstrumentのAへの影響
と小学生でも計算できてしまいます。
なんで未だにわざわざ交絡因子で調整したり、ランダム化試験を行ったりしているのでしょうか??
時間と金の無駄では・・・?
なぜなら、
「Mendelian Randomization=完璧」でないからです。
(当然そうなりますよね)
*****
3つ、大きな問題点があります。
1) そのInstrument、本当はInstrumentでないかもしれない
2) Instrumentと暴露因子の関連性が弱いと、バイアスが増幅される
3) 実はもう一つ大事な条件がある
これを詳細にみていきましょう。
1) そのInstrument、本当はInstrumentでないかもしれない
これは本質的な問題なのです。
特に2つ目(B)と3つ目(C)の前提が、たとえMendelian Randomizationの研究だったとしても証明しきれません。
例えば
・ALDH2の遺伝子変異に関連した遺伝子変異があって(linkage disequilibrium)、それが心筋梗塞と関連する可能性
・実はALDH2が心筋梗塞に直接影響している可能性(飲酒を介さないで)
これらを否定することはできません。
*交絡因子を全て集めることができないのと同様、Instrumentの条件を100%保証することはできないのです。
結局証明できない事柄なので、科学的にはこれ以上どうしようもないのです。
IV analysisは、こういう推定の下で成り立つ式、というだけの話。
その推定が成り立つかはわかりません(多くの場合成り立ちません)。
2) Instrumentと暴露因子の関連性が弱いと、バイアスが増幅される
分母が「Instrumentと暴露因子の関連性」ですね。
これが弱いと、分母がかなり小さくなります
→求める値がかなり大きくなってしまいます。
100%自信持って(=バイアスが完全にない状況で)計算したら、それは分母が小さくとも真の値です。
しかしバイアスが完全にない状況は、ヒトのデータを使う以上ありえません。
それが仮に小さなバイアスだとしても、IV analysisにて分母が小さい場合(Instrumentと暴露因子の関連性が弱い場合)、バイアスが増幅されてしまうのです。
*その点について、通常の交絡因子を調整する手法は有用です。
→なぜなら、一つのバイアスでそこまで大きく結果が変わらないからです。
→調整する因子を1つ加えても、求めるEstimateはそんなに変わらないですよね。
3) 実はもう一つ大事な条件がある
なんやねん!!!
と思われるかもしれませんが。。
実は完璧なInstrumentがあったとしても、95%信頼区間が広すぎてしまうのです。
どれくらい広いかというと、Risk differenceの場合必ず0をまたぐほど(リスク比やオッズ比の場合必ず1をまたぐほど)広いのです。
つまり、有意な差にはなりえない!!意味ない!!
*詳細は省きますが、IV analysisはバイアスをかなり増幅させやすい事が原因だ、となんとなく分かればよいです。
これをなくすために、第4の条件が必要となります。
それがMonotonicity。
これは以下の2つの仮定を満たすことをいいます:
・ALDH2変異があるのに飲酒している人が一定数いますね。
→彼らが「仮にALDH2変異がなかったとしたら」、飲酒していない人はいない(変異がなかったとしても全員飲酒している)
・ALDH2変異なくて飲酒していない人は当然いますよね。
→彼らの中に「仮にALDH2変異があったとしたら」、実は飲酒していた、という人がいない(変異があったとしても全員飲酒していない)
*疫学用語ではこういう人をdefierといいます。常に期待と違う行動を取る人、ということです。
これは仮想現実の世界の話なので、実証することはできません。
が、この仮定が必要です。
さらにさらに、この仮定の下、
飲酒の心筋梗塞への影響=ALDH2変異の心筋梗塞への影響÷ALDH2変異の飲酒への影響
として算出された「飲酒の心筋梗塞への影響」は、
次の人達にしか当てはまりません:
・ALDH2変異があって飲酒していない人の中で、「仮にALDH2変異がなかったとしたら」飲酒している人
・ALDH2変異がなくて飲酒している人の中で、「仮にALDH2変異があったとしたら」飲酒していない人
*疫学用語でcomplierといいます。常に期待通りの行動を取る人、ということです。
言い換えると、
「Defierがいない」という条件の下、Complierに対してのみ当てはまる「飲酒の心筋梗塞に対する影響」がわかる
ということです。
*実際この条件の下、Complierが占める割合は計算することは可能です。
→しかし、誰がComplierなのかを特定することはできません。
まとめ
Mendelian Randomizationは理想的な方法だと思われがちですが、かなり条件が厳しいこと(=assumptionが多いこと)を説明してきました。
まとめると、
1) 次の3つの条件を完全に満たすという仮定
A) Instrument(ALDH2変異)は暴露因子(この場合飲酒)と関連する
B) Instrumentはアウトカム(この場合心筋梗塞)と、暴露因子を介してのみ関連する
C) Instrumentとアウトカムに交絡因子がない
…この内、2つ目と3つ目は実証することは不可能
2) Instrument(ALDH2変異)は暴露因子(この場合飲酒)との関連性が弱くない
3) Defierがいない
*Defierとは以下の2種類の人:
・ALDH2変異があるのに飲酒している人のうち、「仮にALDH2変異がなかったとしたら」飲酒していない人
・ALDH2変異なくて飲酒していない人のうち、「仮にALDH2変異があったとしたら」実は飲酒していたという人
という3つの条件の下、
飲酒の心筋梗塞への影響=ALDH2変異の心筋梗塞への影響÷ALDH2変異の飲酒への影響
として算出される「飲酒の心筋梗塞への影響」はComplierにのみ当てはまる。
*Complierとは以下の2種類の人:
・ALDH2変異があって飲酒していない人の中で、「仮にALDH2変異がなかったとしたら」飲酒している人
・ALDH2変異がなくて飲酒している人の中で、「仮にALDH2変異があったとしたら」飲酒していない人
Mendelian Randomizationと言っておきながら、所詮は「観察研究のデータを使った因果推論の一つの手法」に過ぎないのです。
当然、(質の良い)ランダム化試験の方が、信頼性が高いです。
一方、ランダム化できない「飲酒」みたいな因子にとっては、重要な手法となります。
→当然、Mendelian Randomizationだけでなく、通常の因果推論の方法(色んな交絡因子で調整した多変量解析など)の結果もみるべきです。
Mendelian Randomizationの一番よい点は、交絡因子の情報が必要ないということです。
このため、UK Biobankのような、「交絡因子の詳細な情報はあまり無いけど、最低限の参加者の特徴、大量の遺伝子情報があるデータベース」では、Mendelian Randomizationかなり使いやすいと言えます。
結論
Mendelian RandomizationはIV analysisの内遺伝子変異の情報を用いたもの。
交絡因子がなくても因果推論が可能だが、それにはたくさんのassumptionが必要。
ランダム化試験ほどの信頼性がある、というのは幻想。
ではまた。