傾向スコア、色んな所で多用されています。わりと簡単にできるし、特に傾向スコアマッチングは使い勝手が良さそうです。
でも、なんで傾向スコアを使う(必要がある)か、考えたことはあるでしょうか。
普通の多変量解析ではだめなのでしょうか。
この記事では、そもそも「傾向スコアを使う前に知っておくべき事」を説明します。
Contents
傾向スコア、使いやすいから手を出したくなるのは分かるが
傾向スコアって何のために使うのでしょうか。
交絡因子を調整するためですね。
でも交絡因子を調整する方法って、他にもあります。普通の多変量解析、IPW、standardization、G estimation、IV estimation(IVは特殊ですが)。
その中で、なんで傾向スコアを使う(必要がある)のでしょうか。
よく、傾向スコアマッチングは「ランダム化試験みたいに介入群とコントロール群を作れるから良い」と言われます。
残念ながら、これは言い過ぎです。
傾向スコア、格好いいし、使いたくなる気持ちは分かります。
しかし使う前に、大事なことをいくつか知っておきましょう。
傾向スコアのモデルに使う変数は論理的に決める
傾向スコアのモデルとは、
介入因子(暴露因子)=変数1+変数2+・・・・
というモデルです。
これから傾向スコアを算出しますね。
結論から言うと、このモデルで右辺に使う変数は交絡因子であるべきなのです。
なぜなら、傾向スコアは因果推論を行う手法の一つだから。
交絡因子は論理的に決められるべきです(統計的には決めるべきでない:詳細こちら)
*よく誤解されている方法に、傾向スコアのモデルのC統計量が高いほうが良い、というものがあります。
C統計量とは、ROC曲線がどれくらい良いか=どれくらい「介入(暴露因子)のあり/なし」をdiscriminationできているか、を示します。
なんとなく高ければ高いほど方が良さそうですが、そうとは限らないのです。
なぜなら、
1:どれくらい高ければOKか、誰も知らない
2:C統計量は、どれだけ交絡因子を調整できているかの指標にはならない
3:もしC統計量=1だったら、介入群と非介入群が完全に別の集団であることを意味する。そしたらその2群を比べる意味が無い。
ということで、傾向スコアのモデルに使う変数は(通常通り)論理的に決めましょう。
傾向スコアマッチングはランダム化試験の代わりになるはずがない
当たり前ですが、念の為。
もしそうだったらコストかけてランダム化試験やらないですよね。
例えば、アスピリンと5年後の心筋梗塞発症の因果関係が知りたいとします。
一番効果的な方法はランダム化試験を組むことですが、そんなお金はありません。
手元にコホート研究のデータがあるので、それを使ってみようと思います。
交絡因子は、年齢、性別、人種、心血管病の既往、BMIを考えたとします。
傾向スコアのモデルは、
アスピリン使用有無=年齢+性別+人種+心血管病の既往+BMI
となりますね。
これで傾向スコアが算出され、例えばcaliper=0.05でマッチングし、n=1000ずつのデータが出来上がりました。
*caliperとは、傾向スコア一致とするためにどの程度のスコアのずれを許容するか
これが2000人をランダム化したのと何が異なるか。
当然・・・・、
マッチングした集団は、マッチングした因子しか調整されていません。
ランダム化の素晴らしい所は、全ての因子が2群にランダムに分けられることです。
例えば「健康意識」:健康意識は数量化できないので、マッチングで合わせることはできませんね。ランダム化試験では2群に均等に分配されます。
*ランダム化試験にも質がありますが(別記事で説明)
マッチングしてしまう事が、因果推論の原理原則に沿わない
更に言うと、マッチングの過程でかなりの人数が削られていますよね。
これはselection biasに繋がります。
selection biasがある=結果をそのまま解釈できない、であり、妥当性が低いのです。
ピンクがコントロール、黒が治療群。
だいたいこんな感じの分布になりますよね。
治療群のPSが概して高く、非治療群のPSは低い。当然です。
これをマッチングすると、多くの低いPSの非治療群、多くの高いPSの治療群が除外されます。
つまり、「PSがまあまあ」という集団に限定されてしまうわけです。
これは明らかにselection biasなのですが、「PSがまあまあ」とはどういう集団なんでしょうか?
誰にもイメージつきませんよね。
マッチングした集団で、「アスピリンのリスク比が0.8だった」と結論しても、それが当てはまる集団は「PSがまあまあ」の人達です。
解釈不可能です。
*例えば日本の研究は「対象が日本人」という強いselection biasがかかりますが、これは解釈可能ですね。
以上より、傾向スコアマッチングは因果推論の原理原則に沿わないのです。
厳密には使うべきでありません(とMiguel先生が言っていました)。
傾向スコアを使うべき状況は決まっている:多変量解析でoverfitとなる時
傾向スコアは、多変量解析と並ぶ、因果推論の一つの方法に過ぎません。
そして、多変量解析より傾向スコアが好ましい場合は、かなり限られています。
それは・・
「多変量解析でoverfitとなる時(そして傾向スコアモデルがoverfitとならない時)」
です。
傾倒スコア解析と多変量ロジスティック回帰、どちらを選ぶべきか検討された研究を紹介します(AJE 2003;158:280-287.)。
ロジスティック回帰は、モデルに含む因子がアウトカムの個数÷10くらいより多いとoverfitとなり精度が下がる事が有名ですね。
この論文では、ロジスティック回帰の因子がアウトカムの個数÷7より多い場合、そのロジスティック回帰よりも傾向スコア解析の方が良いと結論されています。
そうでない場合はどちらを使っても変わらないと。
例えば、イベント発生が1000人中50の場合。
50÷7 = 7.1なので、
・暴露因子+交絡因子の数が8個以上なら、傾向スコア解析の方が良い。
暴露因子+交絡因子の数が7個以下なら、普通のロジスティック回帰も傾向スコア分析も変わらない。変わらないならロジスティック回帰を使うべき。
という事です。
なぜか?
例えば、傾向スコアモデルはoverfitになりにくいからです。
1000人中50人しかイベント発生していなくとも、「暴露因子あり」は400人くらいいるのが普通ですね。
傾向スコアモデルは、「暴露因子ありなし=交絡因子」なので、交絡因子を沢山入れることができます。この場合は40個も。
なので普通のロジスティック回帰より精度が高いと言えそうです。
傾向スコアの使いみちはマッチングだけでない
ちなみに。
傾向スコアを使うべき状況がわかった上で、その使いみちはマッチングだけでない事を知っておきましょう。
使い方は次の3つ:
・マッチング
・調整因子として使う
・weight計算用に使う
マッチングは説明しましたね。先程説明したlimitationが大事です。
裏返すとこのassumptionは、「マッチした人において算出された治療効果=マッチされなかった人における治療効果」となります。
通常、ほぼ当てはまりませんね。
調整因子として使えることは、案外知られていません。
イベント=暴露因子+PS
とするだけです。
より厳密にやりたい場合は、+PS2もつけるとよいです。
この方法のassumptionは、「effect modificationがない」ということです。PS計算した時点でeffect modificationは検討できないですね。
(effect modification, interactionについてはこちら)
PSをweight計算用に使うこともできます。Inverse probability weighting(IPW)の方法ですね。これもいつか記事にします。
結論
実は傾向スコアを使うべき状況は限られています。
使いみちもマッチングだけではないです。
もしかしたらマッチングは最もlimitationの強い、悪手かもしれません。
ではまた。