IPWのweightを「安定化」させる方法

IPW [inverse probability weighting]、おわかり頂けているでしょうか。

簡単なんです。

ただ、1/PSと計算されるため、weightが大きくなりすぎる時があります。

例えばPS=0.01だったら、その人は100人分とカウントされてしまう・・・

この解決策、「IPWを安定化させる方法」を学びます。

 

IPWのweightを「安定化」させる方法

IPWのweightを「安定化」させる方法

IPW [inverse probability weighting]はこれまでのこんな記事で紹介してきました↓

 

IPW (inverse probability weighting)って何?【今後流行る】

Lost follow-upによる選択バイアスをIPWで調整する

 

簡単にまとめると、

✔通常の交絡因子を調整する方法は、

Exposure = 交絡因子1 + 交絡因子2 + ….

というロジスティック回帰から計算されるPropensity score [PS]を用いて、

・Exposure =1 の人は 1/PS人

・Exposure =0の人は1/(1-PS)人

としてカウントする方法でした。

 

✔lost follow-upの調整に関しては、

Lost follow-upの有無=Exposure + 交絡因子1+…

というロジスティック回帰から計算されるPropensity score [PS]を用いて、

・Lost follow-up =0 (なし) の人は 1/(1-PS)人

としてカウントする方法でした。

 

さてさて、問題は、PSが0か1に近い人がいる場合です。

PS=0.01だったら、1/PS=100。つまりその人は100人分のカウントとなります。

100人分??

そんなのありですか??

 

ということでこれを「安定化」させる方法を紹介します。

 

 

Stabilized weight

weightをstabilizeする。

stabilized weight です。

分子に「exposure=1 または =0である確率」をかけるのです。

 

✔全員で1000人、飲酒(=exposure)が400人としたら、

・飲酒している人:weight = 400/1000 * 1/PS

・飲酒していない人:weight = 600/1000 * 1/(1–PS)

ということになります。

 

*今まで紹介してきたweightは、安定化させていないweightです。

つまり、non-stabilized weight。

 

確率の式で書くと、

stabilized weight = f(A)/f(A|L)

non-stabilized weight = 1/f(A|L)

です。

 

 

なんでこれで安定化するんでしょう?

純粋に0-1で分布する数をweightにかけるからweightが小さくなる、という理解でOKです。

より詳細には、

・non-stabilized weightの平均は2になる(pseudo-populationはもとの2倍となっている)

・stabilized weightの平均は1になる

ということになります。

 

 

lost follow-upの調整の場合は?

まず、Lost follow-upありなしの変数Aを作りましたね。

そして、

A = exposure

というロジスティック回帰から、PS1を計算します。

次に、

A = exposure + confounders

というロジスティック回帰から、PS2を計算します。

 

Stabilized weightは、

・Lost follow-upありの人(解析されないですが):weight = PS1/PS2

・Lost follow-upなしの人:weight = (1–PS1)/(1–PS2)

です。

 

*Non-stabilized weightは、

・Lost follow-upありの人:weight = 1/PS2

・Lost follow-upなしの人:weight = 1/(1–PS2)

でした。

 

 

ちなみにDAGでは

DAGで、

A (exposure)→S (selection)とL (confounders)→Sの両方の矢印を消すのがnon-stabilized weight。

L→Sのみを消すのがstabilized weightです。

 

でもこんな事は、time varying exposureとかtime varying covariatesを扱う時に必要な知識で、普通の臨床研究には不要な知識かと思われます。

 

本来はtime varyingである要素はかなり多いのですが、その情報を系統的に収集しているデータセットは少ないし、実際の解析方法も難しいので、特別なトレーニングを受けないとできないやつです。

 

*Counterfactualの概念やその数式の理解が必要となってきます。このあたりに興味ある方は、causal inferenceの’method’という領域なので、Google検索してみてください。

 

 

以上IPWを簡単に理解するシリーズでした。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.