平均因果効果のコンセプトと限界

現代の臨床研究・疫学研究ほぼ全ての論文は、‘平均因果効果’ という指標で「因果関係の度合い」を評価しています。平均なので、比較的健康な人に対する効果も具合の悪い人に対する効果も平均されてしまいます。それで良いのでしょうか?

この記事では、平均因果効果のコンセプト、その解釈、限界、将来の展望について説明・考察します。この記事を読むことで、全ての研究論文への見方が少し変わるかもしれません。また、今の因果推論とはどんなことか、今後どう変わっていきそうか、目星がつくかもしれません。

平均因果効果 (average causal effect)とは

平均因果効果 (average causal effect)とは

お酒による酔いやすさの効果を調べました。日本人1000人とアメリカ人1000人を含む集団を対象として、日本酒を2合飲む前と後、日本の酒気帯び運転を取り締る ‘千鳥足の検査’ に何人ひっかかるか 調べました。日本酒を飲む前は、一人も検査にひっかかりませんでした。飲酒後、日本人は500人、アメリカ人は100人引っかかりました。この研究から、「日本酒を2合飲むとどのくらい酒気帯び運転の検査に引っかかる」でしょうか。日本人とアメリカ人の結果が平均され、1000人のうち300人が引っかかるようになる、と結論されます。これが平均因果効果です。でも、この結論は少し無理があると思いませんか?

実際の研究では、「人種が交絡因子として調整されると、日本酒2合により母集団のうち30%が検査に引っかかるようになる」という難しい言い方をします。そして実際は、人種だけでなく年齢や性別など色々な因子で調整されます。が本質的には、やっていることは上の通りです。母集団ってなんなの?

質の高いランダム化試験でも、言える結論は一つだけ

質の高いランダム化試験でも、言える結論は一つだけ

ランダム化試験は、因果関係を推定する上でエビデンスレベルが高いとされています。2019年にNew England Journal of Medicineという最も権威の高い医学誌に掲載された研究をみてみます(N Engl J Med 2019;380:23-32.)。これは、25871人(うち5106人が黒人)の参加者を、オメガ3脂肪酸のサプリと偽薬にランダムに分け、心血管疾患の発症率を見たものです。サプリ群のハザード比は0.92(95%信頼区間:0.80-1.06, p=0.24)で、明らかな効果は認められなかったと結論されています。でも黒人は他の人種より魚を食べる頻度が少ないのです。すると、魚の栄養素であるオメガ3脂肪酸のサプリは、(白人と比較し)黒人により効果的だと思いませんか?このハザード比は、この研究に含まれる全ての人種を平均した影響なのです。

もちろん、この試験に参加した5106人の黒人に限定した解析をすることもできます(ランダム化試験なので、黒人に限ってもサプリ摂取はランダムです)。本論文で解説されていますが、黒人でのハザード比は0.74(95%信頼区間:0.53-1.03)でした。でも、これはprimary findingではありません。もしこれがもっと効果的であっても、p値が低くても、「黒人には効く」と結論することはできません。なぜなら、この研究はデザインの段階で「オメガ3脂肪酸のサプリの影響を確かめるためには〇〇人必要」と計算されているからです。この研究から得られる結論は、本研究の母集団において、ハザード比=0.92だということです。母集団ってなんなの?

こういうランダム化試験のメタ解析で、このような「黒人での効果」の情報を集め、黒人だけに絞った解析は可能です。が、黒人の中にも色々いますよね。魚を食べる人も、食べない人もいます。若い人も若くない人も。運動する人もしない人も。こういう詳細まで解析することは不可能です。ここでいう「〇〇な人は、サプリによる心血管疾患予防効果が異なる」の「〇〇」をEffect modifierと言いますが、Effect modifierを調べ尽くすことは無理だということです(effect modificationについてはまた記事にします)。

もう少し詳細に言うと、ランダム化研究で信頼性を持って言及できる因果効果は、そのメインのexposure(サプリ)とoutcome(心血管疾患)についてのみであり、そのランダム化試験のデータ上有意に認められるEffect modificationは基本的にはhypothesis generatingな結果です。なぜなら、(統計的なpowerが十分にある)Effect modificationの証明には、メインのランダム化試験よりも必要なサンプル数が多いからです。ランダム化試験は、そのメインの因果関係を証明するためにデザインされます。簡単にいうと、真実を言いたければ、「30代の黒人の魚をあまり食べないで運動しない人」を対象にしたランダム化試験が必要で、それによりやっとその母集団でのハザード比を言うことができる、ということです。

平均因果効果は限界にきている(と思う)

最近永ちゃんがインタビューで言っていました。彼はなんと70歳になりましたが、現役でライブをやり続けています。「はいあなた60ね、あなた65ね、あなた70ね。70だと高齢者。って、同じ70なわけないでしょ。」ここに本質があります。平均因果効果でわかることは、元気な70歳もよぼよぼの70歳も皆平均したときの、サプリの効果なわけです。頑張って詳細な解析をしたとしても、60の人での効果や、70の人での効果です(これもeffect modificationです)。つまり、人によって全然違うであろう「サプリの効果」を、人それぞれに対し(オーダーメイドに)推定することは、「平均因果効果」の理論上不可能です。この理論(counterfactualの理論)は、ハーバードでRobinsやMiguelといった有名人が確立し、今疫学研究と臨床研究で世界のスタンダードとなっているものです。

平均因果効果の理論でわかることは、その母集団についての平均した効果です。その母集団ってなんなの?というと、基本的には地球人を対象としていると理解しています(自分は)。例えば安定狭心症に対するある薬の臨床研究では、地球人全ての安定狭心症患者に対する平均した薬の効果。健康な人でのアルコールの悪影響を調べる疫学研究は、地球人全員に対する平均した悪影響(この論文が典型的:Lancet 2018; 392: 1015–35  内容解説はこの記事)。

つまり究極的にわかる(知りたい)ことは、「地球人にとって平均的に」赤肉は健康によいのか、タバコは健康に良いのか、ということです。つまり今までの疫学研究の結果、赤肉やタバコは地球人にとって平均的に健康に悪い事が証明されたわけです。これはとても大事な情報で、例えばWHOのガイドラインや政策、医学学会のガイドラインに応用される根拠となります(タバコ税導入の根拠となります)。一方、だからといってタバコを吸って長生きする人も、赤肉を食べまくって長生きする人もいて不思議ではありません。なぜなら、証明された因果関係は、地球人を平均したときの効果だから。実際は、薬が効く人も効かない人も、タバコを吸って早死する人も長生きする人もいるわけです。

そして、〇〇の人はタバコを吸っても大丈夫、という〇〇を証明することは、counterfactualの理論ではかなり難しいのです。Effect modificationをみつけるということですが、上述したように、これを証明するにはかなりのpower(サンプル数)が必要だし、実質的に1回に1つずつ(年齢とタバコ、性別とタバコ、のように)しか証明することができません。年齢のEffect modificationの証明すら難しいのに、同じ60歳の ‘元気度’ を区別するようなことは、到底できないわけです。バズワードを用いれば、個別医療の発展に寄与しにくい理論だと思います。そして、この理論と機械学習の相性があまり良くないという問題もあります(応用できなくはないですが、信頼区間の推定につかえる程度です。詳細は後日)。なので、新しいフレームワークが必要です。

今、機械学習やAIの分野で、機械学習モデルのInterpretationとか、Individual treatment effectのpredictionの領域が非常にHOTに研究されています。単純に考えても、prediction modelの精度が100%に近づけば、因果推論を行うことが可能です(predictionと因果推論は2020年時点では全く異なります。詳細後日)。タバコを吸い続けたら3年以内に肺癌になることが100%予想され、もしタバコを止めたら3年以内に肺癌にならないこと100%予想されれば、prediction modelから因果推論されたこととなります、おそらく(詳しい方いたら教えて下さい)。私は勉強中の身で語れるほど詳しくないですが、この辺りもいつか説明したいと思います。少なくとも平均因果効果の理論はprecision medicineと相性があまり良くないので、おそらく近い将来、因果推論に関して大きなパラダイムシフトが起こると思います。

結論

平均因果効果は大事だけれど、個別医療を進めるにあたって限界がある、という話でした。

そして、因果推論に関して、近くパラダイムシフトが起こると予想してみました。

ではまた。