Misclassificationのあるリスク比を調整する【高校数学レベル】

測定誤差があったとき、そしてvalidation studyの情報が利用可能なとき、実際にはどう計算したらよいのか。

R等ではパッケージで自動的に計算できますが、その論理背景を理解すれば、簡単に応用が効きます。

この記事では、misclassificationがある場合のリスク比の算出方法を、高校数学レベルで説明します。

*分散の導出法は省いています。

 

Misclassificationのあるリスク比を調整する

Misclassificationのあるリスク比を調整する

前回の記事で、misclassificationがある場合のexposureの調整法を解説しました。

ちなみに、misclassificationとは、カテゴリ変数の測定誤差を言うのでした。これはvalidation studyで調整する事が可能なのでした。

 

今回の記事では、misclassificationのある場合のリスク比を調整してみます。

ほとんどの情報は測定誤差があるので、適切な調整法を知っておくことは非常に大事です。

一度やってみると理解出来、応用がききます。

高校数学レベルです。

 

*リスク差も大同様です。また、簡便のため、0-1のアウトカムにはmisclassificationは無いものとして扱います。

 

 

全ては条件付き確率

測定誤差の調整については、条件付き確率の理解が最も重要と言って過言ではありません。

高校数学レベルなので、そんなに構える事はありません。

 

まずvalidation studyについて。

Xを真実のexposure、Zを測定されたexposure(misclassificationあり)、とします。

 

いま、喫煙とLDLの関係を知りたいので、

X:本当は喫煙している

Z:健診のアンケートで喫煙に「はい」と答えている

でした。

 

するとこうです:

感度:本当は喫煙していてアンケートでも「はい」と答えた

Pr(Z=1|X=1)

特異度:本当は禁煙していてアンケートでも「いいえ」と答えた

Pr(Z=0|X=0)

これらは、validation studyの結果から計算できますね。

 

 

では計算いってみよう!

ちょっとトリッキーなので注意です。

アウトカムの「LDLが高い」をD=1とします。

*LDLは連続変数ですが、ここではカテゴリ変数とします。連続変数でも基本は同様です。

 

求めたいのは、

・本当は喫煙している人の中でLDLが高い人の割合

Pr(D=1|X=1)

・本当は禁煙している人の中でLDLが高い人の割合

Pr(D=1|X=0)

 

ですが、Xはvalidation studyしかわからない情報です。

→main studyではDとZしかわかりません。

これを念頭に置いて、「計算できる」式変形をすると、こうなります。

 

Pr(Z=1|D=1)から始める

Pr(Z=1|D=1)

これは求める対象ではないですが、これからスタートすることで計算できます

= Pr(Z=1,X=1|D=1) + Pr(Z=1,X=0|D=1)

X=1の場合とX=0の場合にわけられる、ということです

= Pr(Z=1|X=1,D=1) * Pr(X=1|D=1) + Pr(Z=1|X=0,D=1) * Pr(X=0|D=1)

これはベイズの定理です

= Pr(Z=1|X=1) * Pr(X=1|D=1) + Pr(Z=1|X=0) * Pr(X=0|D=1)

これがポイント!Pr(Z=1|X=1,D=1) = Pr(Z=1|X=1)なのです。

→なぜかというと、ZとXの分布に対しDの分布は独立だから。言い換えるとnon-differential misclassificationだから。

= 感度 * Pr(X=1|D=1) + (1–特異度)* (1–Pr(X=1|D=1))

Pr(Z=1|X=0)+Pr(Z=0|X=0)=1だし、Pr(X=0|D=1)+Pr(X=1|D=1)=1ですね

= (感度+特異度–1) * Pr(X=1|D=1) + (1–特異度)

 

式変形すると

Pr(X=1|D=1)

= [Pr(Z=1|D=1) –1 +特異度] ÷ (感度+特異度–1)

= [Pr(Z=0|D=1) –特異度] ÷ (1–感度–特異度)

これは、main studyでPr(Z=0|D=1)がわかるので、計算できます。

 

求めたいのは

Pr(D=1|X=1)

= Pr(X=1,D=1)÷Pr(X=1)

= Pr(X=1|D=1) * Pr(D=1)÷Pr(X=1)

 

お!

Pr(X=1|D=1) は計算できる。

Pr(D=1)はmain studyでLDLが高い人の割合なので、計算できる。

あとPr(X=1)さえわかれば・・・・!

 

 

Pr(Z=1)から始める

これもまた「計算できる」ように始めましょう・・・

Pr(Z=1)

=Pr(X=0,Z=1) + Pr(X=1,Z=1)

= Pr(Z=1|X=1)*Pr(X=1) + Pr(Z=1|X=0)*Pr(X=0)

=感度*Pr(X=1) + (1–特異度) *(1–Pr(X=1))

= (感度+特異度–1) * Pr(X=1) + (1–特異度)

流れはさっきと同じですね。

 

変形すると、

Pr(X=1)

= [Pr(Z=1) –1 +特異度] ÷ (感度+特異度–1)

= [Pr(Z=0) –特異度] ÷ (1–感度–特異度)

これは計算できる。

できた!

 

ということで、

 

Pr(D=1|X=1)

= Pr(X=1|D=1) * Pr(D=1)÷Pr(X=1)

= {[Pr(Z=0|D=1) –特異度] ÷ (1–感度–特異度)} * Pr(D=1) ÷ {[Pr(Z=0) –特異度] ÷ (1–感度–特異度)}

代入

= [Pr(Z=0|D=1) –特異度] * Pr(D=1) ÷{[Pr(Z=0) –特異度]

(1–感度–特異度)が相殺

 

分母分子にmain study全体の人数をかける

=[Z=0かつD=1の人数 – 特異度*D=1の人数]÷[Z=0の人数 – 特異度*全体の人数]

 

割ときれいになりました。

これは計算できますね。

 

 

リスク比は。

リスク比は、

Pr(D=1|X=1) ÷ Pr(D=1|X=0)

です。

 

上と同じ工程を経て、Pr(D=1|X=0)を計算すると、

[Z=1かつD=1の人数 – 特異度*D=1の人数]÷[Z=1の人数 – 特異度*全体の人数]

となります。

 

よってリスク比はこちら:

{[Z=0かつD=1の人数 – 特異度*D=1の人数]* [Z=1の人数 – 特異度*全体の人数]}

÷ {[Z=1かつD=1の人数 – 特異度*D=1の人数] *[Z=0の人数 – 特異度*全体の人数]}

 

*********

疲れましたね。おしまいです。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.