Lost follow-upによる選択バイアスをIPWで調整する

Lost follow-up。多くの臨床研究では単に除外されて済まされてしまっている問題です。

でも間違いなくselection biasにつながっており、この点疫学者はかなり厳しく見る傾向にあります。

「でもlost follow-upなんだから仕方ないじゃん」

とは言わず、IPWを使って調整してみましょう。

 

 

Lost follow-upによる選択バイアスをIPWで調整する

Lost follow-upによる選択バイアスをIPWで調整する

これあまり普及していない方法ですが、とても簡単でかつ有用なので覚えておきましょう。

IPWの詳細なコンセプトと方法はこちらの記事で解説していますが、簡単に言うと

・Exposure=1の人は、1/PS人としてカウント

・Exposure=0の人は、1/(1-PS)人としてカウント

することで得られるpseudo populationにてメインの解析を行う、というものでした。

 

これをLost follow-upの調整にも応用してみましょう!

 

 

簡単3ステップ!

A)

Lost follow-upの人達のベースラインの情報を含むデータを使用します(当然)。

そこで、「Lost follow-upかどうか(0か1)」という変数Aを作ります。

 

B)

で、

変数A=exposure + 交絡因子

というlogistic regressionを作って、そのregressionからA=1である確率を計算します(要はpropensity score [PS]と一緒です)。

 

C)

・A=1(lost follow-upあり)の方には1/PS

・A=0(lost follow-upなし)の方には1/(1-PS)

の重み付け(weighting)をして、おしまい!

 

メインの解析は当然A=0(lost follow-upなし)の集団でしかできません。

上記のweightingをしたA=0の集団(pseudo population)でメインの解析をやればOKです。

 

 

なんでこれでlost follow-upが調整されるの?

要はlost follow-upによりselection biasが生じる。

つまり、lost follow-upしてない集団は、集団全体のrepresentativeでない

ということを調整したいわけですよね。

 

だからlost follow-upしてしまった、という特徴を計算して(上記のPS)、それをもとにIPW行うことで、元の集団っぽい集団にしている、ということです。

 

これはDAGで描くとこういう感じになります。

Lost follow-upによる選択バイアスをIPWで調整する

 

詳細は省きますが、ここでいうA→S、L→Sの矢印を消すのが(unstabilized)IPWです。

 

*厳密には、IPWの中でもstabilized weightとunstabilized weightでちょっと違います。

このあたりはまた今度。

 

 

ちなみに、上のIPWモデルの「交絡因子」に何を入れるか、ということについては議論があります。

というのも、SとYのすべての交絡因子で調整することは不可能だからです。例えば、「studyに参加したけどfollow-upには参加しない怠惰な人」という因子はoutcomeにも関わりそうですが、その情報はありません。

 

天才たちが色々考えた結果、

できるだけのその交絡因子+メインの解析で使う交絡因子で調整すればOKでしょう、となっています。

 

*詳細はこの論文(Stat Methods Med Res. 2013;22(3):278-295)にありますが、おそらく基本的なcounterfactualの概念がわからないと解読不能です。

 

 

Weightが大きすぎる場合は?

実際やってみると、weightが大きすぎる人が出てくるかもしれません。

つまりIPWモデルで、PSが0が1にかなり近い場合です。

それがinverseされてweightとなるので、weightが10とか20とか100とかなりえてしまいます。

 

もしモデルが完全に正しければ問題ないのですが、上述の通り完全に正しいことはありえません。

よって、ちょっと誤差は生じうる。

weightが大きすぎると、この誤差が増幅されてしまいます。

 

★でかすぎるweightへの対処法

いくつか紹介します。

✔stabilized weightを使用する

→詳細は後日

 

✔連続変数の分布を確認、必要であれば2乗、3乗のtermを入れる

→logistic regressionでは、例えば年齢は「log (lost follow-up)である確率」と直線的な相関関係にあることがassumptionとされてしまっています。

→よってその連続変数(ここでは年齢)のoutlierが、大きな影響を及ぼしている可能性があります

(特に、強力に関連する連続変数は、この傾向があります)

→この場合、年齢2、年齢3といった因子を追加することで、モデルがflexibleとなり、その変な影響が弱まります

 

✔Interactionを入れる

→これも基本ですが、interaction termが無いモデルは、interactionが無いというassumptionを置いてしまっています。Interaction termを入れることは、実はinteractionが無い場合にも対応するので(そのcoefficientが0になるだけ)、よりflexibleなモデルとなります

 

✔できるだけ多くの因子で調整する

→overfitとなる場合はちょっと複雑。Forward selectionやLassoの使用はありかも。

(基本は予め決めた因子で調整する、です)

 

✔missing imputationを使う

→統計的にはこちらの方がefficiencyが高いとされている。なぜなら全例使えるから。

→でも、その他にmissing dataが多い場合は微妙かも

 

 

結論

Lost follow-upはIPWで調整したほうが良い。

Weightが大きくなりすぎる場合はちょっと考える必要あり。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.