予測モデルと因果推論の違い、段々と浸透してきています。
因果推論は実は、counterfactual predictionという「予測」の中の一つです。
そういう意味で、臨床試験のほとんどがcounterfactual predictionと言えます。
この記事では、predictionとcounterfactual predictionの違いを説明していきます。
Contents
臨床研究のほとんどはCounterfactual predictionである
ハーバード疫学グループからの最近のcommentaryを紹介します(Euro J Epi 10.1007/s10654-020-00659-8)。
お題は、「Counterfactual predictionはcausal inferenceのためだけでない」
臨床研究の種類は主に3つあります
description
prediction
counterfactual prediction
この中で、ほとんどがcounterfactual predictionです。
3つ目をcausal inference(因果推論)、と言いたい所ですが、counterfactual predictionです。
causal inferenceはcounterfactual predictionの一部なんですよ、ということをお示しします。
*counterfactual predictionとは、複数の介入があり、「もし現実でない方の介入をしていたらどうなっていたか」を予測するもの。
いわゆる普通のpredictionとcounterfactual predictionは何が違うか?
例えば「心不全の5年生存率」を考えることにしましょう。
predictionはベースラインの情報で5年間の死亡を予測するモデルを構築することをいいます。
もちろん心不全が重症な程死亡率は高いので、そのようなprediction modelとなります。
しかし!
かなり重症な一部は心移植の適応となります。
心移植は死亡率を減らすので、心移植にアクセスできる環境でprediction modelを作ると、重症心不全の死亡リスクは低くなります。
つまり、ある状況下で作ったprediction modelは、基本的にその状況でしか通用しないのです。
もし心移植をあまりやってない地域で作ったprediction modelを、心移植をたくさんやっている他の地域で活用するにはどうしたらよいか?
「もし心移植へアクセスがあったら」というCounterfactualを考える必要があります。
→つまりcounterfactual predictionということです。
*より一般化していえば、「もし・・だったら」という仮定を置いた時点で、counterfactualが関わり、目的がcounterfactual predictionとなります。
→「もし・・」がない予測こそが普通の(factual) predictionです。
Counterfactual predictionに必要なものは?
普通のfactual predictionは、全く同じ状況下でしか汎用性がない。
だったら常にcounterfactual predictionをすればよいんでないの?
そうでもないんです。
なぜなら、counterfactual predictionには質の高い構造化データ、たくさんの“assumption(仮定)”が必要だから。
質の高い構造化データとは、eligibility criteriaがはっきりしており、ベースライン情報、アウトカム、介入、交絡因子がフォローアップ期間を通して繰り返し測定されているデータという意味です。
→IPWやg-estimationでデータがあればcounterfactual predictionはできますが、その値が信頼性できるかということは、例えばexchangeabilityが成り立つという前提に基づいています
→exchangeabilityは残念ながら証明できないので、成り立つことを信じてやる以外ありません(randomized controlled trial以外は)
*factual predictionはconfounderの情報やassumptionが必要ありません。
さらに、counterfactual predictionではtraining/validation/testのようにデータを分けてやることができません。
→なぜなら、assumptionが成り立つということを証明できないから
→つまりvalidationができないのです
まとめると:多くの場合counterfactual predictionが必要だけど、そもそもそれを行うデータがない場合がほとんどであり、やったとしてもうまくやれているか分からない。
結局・・・・
最近データサイエンス界隈でcausal inferenceが注目されていますが、それはfactual predictionとcounterfactual predictionの違いに皆が気づいてきたからとも言えるかもしれません。
でもアプローチが全然違います。
一番大きな違いは、counterfactual predictionはassumptionが必要+validationができないということ。
個人的には、
・predictionは自主勉でなんとかスキルアップできる
・counterfactual predictionは自主勉だとかなりキツイ(教えてもらわないとわからない)
と思います。
counterfactualも一度基本がわかると、発展的なトピックにはなんとか食らいついていけますが、その基本の理解がハードルちょっと高めかもしれません。
でも大事です。
ではまた。