IPW [inverse probability weighting]、おわかり頂けているでしょうか。
簡単なんです。
ただ、1/PSと計算されるため、weightが大きくなりすぎる時があります。
例えばPS=0.01だったら、その人は100人分とカウントされてしまう・・・
この解決策、「IPWを安定化させる方法」を学びます。
IPWのweightを「安定化」させる方法
IPW [inverse probability weighting]はこれまでのこんな記事で紹介してきました↓
・IPW (inverse probability weighting)って何?【今後流行る】
・Lost follow-upによる選択バイアスをIPWで調整する
簡単にまとめると、
✔通常の交絡因子を調整する方法は、
Exposure = 交絡因子1 + 交絡因子2 + ….
というロジスティック回帰から計算されるPropensity score [PS]を用いて、
・Exposure =1 の人は 1/PS人
・Exposure =0の人は1/(1-PS)人
としてカウントする方法でした。
✔lost follow-upの調整に関しては、
Lost follow-upの有無=Exposure + 交絡因子1+…
というロジスティック回帰から計算されるPropensity score [PS]を用いて、
・Lost follow-up =0 (なし) の人は 1/(1-PS)人
としてカウントする方法でした。
さてさて、問題は、PSが0か1に近い人がいる場合です。
PS=0.01だったら、1/PS=100。つまりその人は100人分のカウントとなります。
100人分??
そんなのありですか??
ということでこれを「安定化」させる方法を紹介します。
Stabilized weight
weightをstabilizeする。
stabilized weight です。
分子に「exposure=1 または =0である確率」をかけるのです。
✔全員で1000人、飲酒(=exposure)が400人としたら、
・飲酒している人:weight = 400/1000 * 1/PS
・飲酒していない人:weight = 600/1000 * 1/(1–PS)
ということになります。
*今まで紹介してきたweightは、安定化させていないweightです。
つまり、non-stabilized weight。
確率の式で書くと、
stabilized weight = f(A)/f(A|L)
non-stabilized weight = 1/f(A|L)
です。
なんでこれで安定化するんでしょう?
純粋に0-1で分布する数をweightにかけるからweightが小さくなる、という理解でOKです。
より詳細には、
・non-stabilized weightの平均は2になる(pseudo-populationはもとの2倍となっている)
・stabilized weightの平均は1になる
ということになります。
lost follow-upの調整の場合は?
まず、Lost follow-upありなしの変数Aを作りましたね。
そして、
A = exposure
というロジスティック回帰から、PS1を計算します。
次に、
A = exposure + confounders
というロジスティック回帰から、PS2を計算します。
Stabilized weightは、
・Lost follow-upありの人(解析されないですが):weight = PS1/PS2
・Lost follow-upなしの人:weight = (1–PS1)/(1–PS2)
です。
*Non-stabilized weightは、
・Lost follow-upありの人:weight = 1/PS2
・Lost follow-upなしの人:weight = 1/(1–PS2)
でした。
ちなみにDAGでは
DAGで、
A (exposure)→S (selection)とL (confounders)→Sの両方の矢印を消すのがnon-stabilized weight。
L→Sのみを消すのがstabilized weightです。
でもこんな事は、time varying exposureとかtime varying covariatesを扱う時に必要な知識で、普通の臨床研究には不要な知識かと思われます。
本来はtime varyingである要素はかなり多いのですが、その情報を系統的に収集しているデータセットは少ないし、実際の解析方法も難しいので、特別なトレーニングを受けないとできないやつです。
*Counterfactualの概念やその数式の理解が必要となってきます。このあたりに興味ある方は、causal inferenceの’method’という領域なので、Google検索してみてください。
以上IPWを簡単に理解するシリーズでした。
ではまた。