COX比例ハザードモデルについて数式(ほぼ)なしで解説

COX比例ハザードモデルって、ちょっと難しく感じる方もいるかもしれません。

いわゆるロジスティク回帰と同じ要領でモデルを組めますが、その背景となる考え方が少し違います。

特に、Proportional hazardという仮定に基づいていることが、とてもとても重要です。

この記事では、このあたりのベースを、数式をほぼ使わずに解説します。

 

 

COX比例ハザードモデルについてわかりやすく解説

COX比例ハザードモデルについてわかりやすく解説

まずCOX比例ハザードモデルとはなにか一言で言うと、

「ロジスティック回帰+生存時間というパラメータ」

です。

 

ロジスティック回帰は0か1かのアウトカムを予測しますね。

でもそこに時間の概念はありません。

なので「死亡」がアウトカムだとしたら、全員3年間フォローアップされているものとして解析する必要があります

→その場合、アウトカムは「3年間の死亡」となります。

*ロジスティック回帰の原理はこちら

 

一方COX比例ハザードモデルは、時間が経つにつれてどのような加速度で死亡が増えていくか(ハザード)を比較する方法です。

→ハザードについてはこちらの記事を参照ください。

 

具体的にどういう意味なんでしょうか?

 

 

COX比例ハザードモデルのコンセプト

生存解析の問題は、微分積分を避けては通れない所です。

しばらく数学に触れていないと、微分が出てきた時点でアレルギー反応を起こします。

ですので、この記事では極力数式での説明は省き、概念的な理解を目標とします

(それで大抵の場合OKです)

 

COX比例ハザードとは、当然「ハザード」というパラメータをモデルする方法です。

この記事で解説していますが、「ハザード」とは「どれくらいの加速度でイベントが起きていくか」です。

 

よって当然、ハザードは、時間によってその値が変わります

 

✔例えば「糖尿病有無で手術後の死亡率比較した」という研究を考えます。

どちらの群も、手術直後の1ヶ月は死亡の増え方はかなり多いが、その後は徐々に少なくなっていきます。

このように、ハザードは時間に依存した変数だと言えます。

 

このハザードを求めようとすると、大変です。

そこでCOXさんは、ハザードを求めず、2群のハザード比だけを求めようと考えました。

上の例で言うと、糖尿病患者の手術後のハザードは求めなくて良い。

代わりに、糖尿病患者 vs. 非糖尿病患者のハザード比だけ求めたい。

こういうことです。

 

そこで一つ大事なことに気づきました。

ハザードは時間によって変わっていくけど、ハザード比は時間によって変わるのかな?

糖尿病患者が、手術後に死亡するリスクは時間によって違うけど、

糖尿病患者とそうでない患者を比較した死亡リスクの比は時間によって変わらないんじゃないか?

この仮定がproportional hazardと呼ばれる、COX比例ハザードの根本の仮定となります。

→つまり、これが成り立たなければ、COX比例ハザードモデルは間違っている事になります。

 

*ちなみに、この仮定はほとんどの場合成り立たないことが分かっています。

なぜ成り立たないか?これは次回の記事で説明します。

でも多くの論文がその事実には目をつぶって、COX比例ハザードモデルを使い続けているので、とりあえず大丈夫です。

 

 

COX比例ハザードモデルの式

ハザードを求めず、ハザード比だけを求める

こんな事がどうやったらできるのか。

こうやるんです。

 

<ハザード>=<ハザードのもと>*exp (a1*糖尿病の有無)

 

*<ハザードのもと>は求めません

*ハザードも、ハザードのもとも、時間に依存します

*exp()とは、自然対数の底eの()乗、ということです

 

✔こうすると

・糖尿病患者のハザード:ハザードのもと*(eのa1乗)

・糖尿病でない患者のハザード:ハザードのもと

…eのa1*0乗(つまり0乗)は1だからです

 

→→よって、糖尿病の有無によるハザード比は、eのa1乗となります

(ハザードのもとが相殺される)

 

 

色んな因子を入れても同じ

多変量ロジスティック回帰のように、交絡因子で調整できます。

この場合、

 

<ハザード>=<ハザードのもと>*exp (b1*糖尿病の有無 + b2*交絡因子1 + b3*….)

 

exp ()内が増えていきます

 

で、やりたいことは

「交絡因子が全部同じ値で、糖尿病の有無だけが異なるときに、ハザードがどう違うか」

ということなので、

*これは因果関係を求めるためです。相関関係との違いは:この記事で

 

exp() 内は

糖尿病患者:b1 +…

非糖尿病患者:0 + …

(…は同じ)

ということになります。

 

で、両群の比ととると、

<ハザードのもと>と…が相殺されて、

ハザード比=b1

となるわけです。

 

*a1がどうなるか、b1がどうなるか、というのを統計ソフトで計算するわけですね

 

 

大事なのはProportional hazard。これ一つ。

<ハザードのもと>を計算しなくてもハザード比が求まってしまいました。

つまり<ハザードのもと>は何でも良いんです。

すごいですね。

 

*<ハザードのもと>をbaseline hazardといったりしますが、言葉はどうでも良いです。

何でも良いという意味は、時間経過に応じて、ハザードのもとがどう変わっても良い、ということです。

 

でも何でもよくない仮定がありましたね。

Proportional hazardです。

どの時間においても、糖尿病患者のハザード÷非糖尿病患者のハザードは一定だ

という仮定です。

 

✔もそも上で計算したように、

ハザード比=b1

と定数で求まる(時間に応じた変数でない)ので、そりゃあそのとおりだ、となるわけです。

 

でもこのProportional hazard、実は成り立つわけが無いんです。

詳細は別記事で解説しますが、”built-in selection bias”という別の言い方もあります。

つまり成り立つわけがなく、selection biasにつながっている、という意味です。

 

*よく「proportional hazardが成り立っているか」という検定が行われることがあります。

が、これは意味ありません。

・だって、成り立っていないという結論だったらどうするの?

・そもそも、proportional hazardが成り立つか、というのは、(統計的でなく)論理的に考える問題です

 

興味ある方は、また次回のブログ記事読んでください。

 

 

結論

ハザードは時間に依存する変数。

ハザードを求めなくてもハザード比が求められるのがCOXモデル。

その仮定はproportional hazardというもので、これは成り立つわけがないことが知られている。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.