IPW (inverse probability weighting)って何?【今後流行る】

IPW, inverse probability weighting。

因果推論においてかなり重要なコンセプトです。

今後、絶対流行ります。全然難しくないし。

この記事では、IPWの基本について解説します。数式なし。

Propensity scoreと合わせて、必ずものにしましょう。

 

*Adjusted Kaplan-meier曲線を描くのに必要な知識です。その描き方も説明します。

 

 

IPW (inverse probability weighting)って何?

IPW (inverse probability weighting)って何?

最初に言っておくと、全然難しくないですよ。

軽く読んでください。

 

ほぼすべての臨床研究は因果推論ですが、その方法論について整理して習ったことのある人は少ないです。

そもそも、因果推論の方法をはっきりさせて理解しておいた方がよいと思います。

こんな感じで6つあります:

・普通の多変量解析

・Propensity score

・IPW

・Standardization

・G-estimation

・IV analysis

 

基本は、どれが良いどれが悪いということでなく、全部同じくらい大事。

上5つは交絡因子を調整する異なる手段で、IV analysisだけは全然違う方法(この記事参照)。

こう知っておきましょう。

 

*propensity score matchingの方が普通のregressionよりよい、というのは典型的な勘違いです。

 

ちょっと踏み込むと、Time-varying exposureだったりtime-varying confounderといったものに対応できるのは、IPWとg-estimation。

でもはっきり言って、これらの解析を臨床医が単独でやるのは無理です。

なので参考程度で良いと思っています。

 

でも、もう普通のregressionも、もしかしたらpropensity scoreも、使える。

なんでIPWを知っておく必要があるの?

*

*

*

*

*

→なぜなら、adjusted Kaplan-meier curveを書く必要があるからです!!!!!!!

 

今後、多くの観察研究で、adjusted K-M curveが求められるようになるはずです。

これが多くの方にとって、一番practicalな用途だと思います。

 

ということで、IPWの基本を理解していきましょう!

 

 

IPWのinverse probabilityってなに??

Inverse probabilityのweighting。これにつきます。

酒を飲むと心筋梗塞が増えるか」ということを検討しようとします。

 

なんのprobabilityかというと、

・酒を飲んでいる人が、交絡因子から予測される酒を飲んでいる確率

・酒を飲んでいない人が、交絡因子から予測される酒を飲んでいない確率

ということです。

 

✔思い出してみれば、Propensity scoreってこんなロジスティク回帰でした:

酒を飲んでいる = 年齢 + 性別 + 喫煙 +….(交絡因子)

左辺が0か1のexposure、右辺が交絡因子。

これで、それぞれの人にPropensity score (PS)が計算されるのでした。

このPSこそが、「交絡因子から予測される酒を飲んでいる確率」ですね。

 

一方、酒を飲んでいない確率は、

1 – PS

です。

 

これらprobabilityをinverseする。つまり、

・酒を飲んでいる人は、1/PS

・酒を飲んでいない人は、1/(1–PS)

 

IPWのI (Inverse)とP (probability)までおしまいです。

あとWだけ。

 

 

IPWのweightingってなに??

当然一人の参加者は一人としてカウントされますね。

これを、「inverse probability人」としてカウントする、ということをweightingといいます。

 

つまり、

酒を飲んでいる人Aの1/PS=0.5だったら、その人は0.5人分としてカウント。

酒を飲んでいない人Bの1/(1–PS)=3だったら、その人は3人分としてカウント。

こういうことです。

 

で、

そういう風にして、

心筋梗塞 = 飲酒の有無

というモデルを立てて、その答え=交絡因子で調整した答え、ということになるのです。

 

オッケーー!!!

 

 

Pseudo-populationっていう言葉を知っておく

Inverse probabilityでweightingする。

この意味が分かって頂けたと思います。

 

おさらいすると、

・exposure=1の人は、1/PS人としてカウント

・exposure=0の人は、1/(1–PS)人としてカウント

することを、IPWと言います。

 

*当然exposure(例だと飲酒)が0か1の場合に限って話しています。

*注意すべきは、全員1/PSで重み付けするわけではないということ。

 

で、そのIPWした集団を、pseudo-populationと言います。

おわり。

 

✔pseudo-populationでの相関関係(飲酒と心筋梗塞の関係)は、すでに交絡因子で調整されているので、因果関係になっています。

つまり単純な相関関係はわからなくなるのです。

*因果関係として判断できる色んなassumptionはかっ飛ばしています。

 

 

Adjusted Kaplan-meier curveの描き方は?

Pseudo-populationで、普通にKaplan-meier curveを描けば、それがadjusted Kaplan-meier curveとなります

簡単でしょ!?

Rだったら、「IPWsurvival」というパッケージで、簡単に描けます。

 

*今後IPWが流行るだろう理由は、adjusted K-M curveを要求するreviewerが増えると予想しているからです。

 

 

まとめ

PS matchingって、要はPSが同じくらいの人を引っこ抜くわけですよね。

そのPSを使って、それぞれの参加者に重み付けを行うというだけ。

簡単でしょ?

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.