観察研究とランダム化試験はどう異なるか?【超有名論文の解説】

観察研究とランダム化試験。どちらも因果関係を言おうとしますが、ランダム化試験の方が信頼できます。

でも観察研究が全くダメだというわけではありません。

そうだったら観察研究なんて行われませんね。

この記事では、同じ因果関係を言おうとした有名な観察研究とランダム化試験を比較して、どう異なるか考えてみます。

 

 

観察研究とランダム化試験で結果はどれほど異なるか?

観察研究とランダム化試験で結果はどれほど異なるか?

紹介するのは、「閉経後のホルモン(エストロゲン)補充療法により心血管病が増えるか?」という因果関係を調べた2つの論文。

・Nurses Health Studyというコホートを対象とした観察研究(N Engl J Med 1996;335:453-61.

・Women’s Health InitiativeというRCT(JAMA. 2002;288:321-333

です。

 

この2つの研究は、予防医学領域では極めて有名なもの。

当然観察研究の方が先に発表されています。その後、RCTにて確かめられた、という時系列。

結論はどういう違いとなったのでしょう??

 

それぞれ簡単に紹介していきます。

 

 

Nurses Health Studyの解析

研究デザインはこんな感じです。

✔6万人の心血管病の既往が無い閉経後女性が対象

✔暴露因子はホルモン製剤の使用

→never userがreferenceで、past userとcurrent user(エストロゲン単独 or エストロゲン+プロゲステロン)を比較しました

✔アウトカムは心筋梗塞か心筋梗塞による死亡

✔COX proportional hazard modelを使ってハザード比を算出

✔調整因子はかなり網羅的

✔フォロー期間は16年

 

結果は、never userに対し、

エストロゲンのみを使用中:HR 0.60 (0.43-0.83)

エストロゲン+プロゲステロンを使用中:HR 0.39 (0.19-0.78)

・上のどちらかを使用中:HR 0.60 (0.47-0.76)

・過去に使用歴あり:HR 0.85 (0.71-1.01)

 

よって、ホルモン補充療法は冠動脈疾患のリスクを下げる、と結論しました。

 

 

Women’s Health Initiativeの結果

研究デザインはこんな感じです。

✔1.7万人の心血管病の既往が無い閉経後女性が対象

✔エストロゲン+プロゲステロン vs. プラセボ にランダム化

✔アウトカムは心筋梗塞か心筋梗塞による死亡

✔COX proportional hazard modelを使ってハザード比を算出

✔フォロー期間は平均5.2年

 

結果は、ホルモン補充療法群がHR 1.29 (1.02-1.63)

 

よって、ホルモン補充療法は冠動脈疾患のリスクを上げる、と結論しました。

 

*ちなみにこのRCTは、他のアウトカムである乳がんの発症がホルモン補充療法群で有意に多くなったことから、途中で中止となりました(フォロー8.5年の予定であった)。

 

 

真逆の結果・・

そう、この2つの研究が何故有名かというと、真逆の結果になったからなのです。

なんでこんなことに。。。。

 

いくつか重要なポイントがあります。

これを理解することが、観察研究 vs. RCTを解釈する上で極めて重要になります。

では行ってみましょう!

 

✔そもそもProportional hazardというassumptionが成り立っていない

この記事で解説していますが、介入に感受性の高い人は早期にアウトカムを発症、残るはそもそもアウトカムになりにくい人達なのです。

つまりフォローの最初の頃と最後の頃では母集団の性質が異なります。

→Proportional hazardというassumptionは成り立ち得ないのです。

(built-in selection biasと言いましたね)

だからproportional hazardを前提とするCOXモデルでハザード比を比較するというのは、そもそも妥当でない。

 

✔同じハザード比でも、フォロー期間が異なると意味合いが異なる

フォロー期間が長いほど、上記の選択バイアスが顕著になります

より具体的に言うと、10年後もイベントなしで経過している人は、そもそも心筋梗塞にめちゃくちゃなりにくい人だということです。

Nurses Health Studyでは16年ものフォローアップ。

これではフォロー5年のWomen’s Health Initiativeと見ているものが違います。

 

✔RCT特有のバイアス

RCTには交絡因子が無いからといって、バイアスが無いわけではありません。

一番重要なのは、post-randomization selection bias

→例えばlost follow-up(フォローできなくなる)だったり、non-adherence(振り分けられた介入を守らない)だったり。

 

紹介したWomen’s Health Initiativeというのは、ホルモン製剤を何年も内服し続けるという過酷な介入でした。

lost follow-upは3.5%でしたが、

介入を途中でやめてしまった人は

・ホルモン製剤群で42%

・プラセボ群で38%

と非常に多かった。

 

しかも途中で新しいホルモン製剤を始めた人も

・ホルモン製剤群で6.2%

・プラセボ群で10.7%

と結構いました。

 

解析はintention-to-treatといって、もともと割り振られた群での解析になります(そうでないと交絡因子がでてきてしまいますね)。

でもこれだけadherenceが悪いと、何の介入をみているのか、さっぱりわかりませんね。

 

*ただ、per-protocol analysisでも同様の結果でした。そして、上のpost-randomization biasは、ハザード比が1に近づく方向のバイアスになります。つまり、それでもハザード比が高かったということは、ホルモン製剤は実際はもっと悪いことが示唆されます。

 

✔residual confounding

ランダム化試験は交絡因子が排除されます。が、観察研究では、いくら網羅的に調整しても交絡因子が調整しきらないのです。

residual confoundingと言います。

→つまり、「ホルモン補充療法をする人の特徴」と「しない人の特徴」を合わせきることができていなかった可能性は否定できません。

 

*ただ、それが無いように無いようにすごく配慮して観察研究が行われます。今回紹介した研究も、(これ以上できないくらい)かなり網羅的に調整しているので、これでもresidual confoundingがあるなら、他の研究はどれだけあるんだって感じです。

 

✔観察研究はアンケートをベースにするという問題

「ホルモン製剤を内服しているか」は、ランダム化試験では実際に薬のピルを割り振りますが、観察研究ではアンケート結果に基づきます。

Nurses Health Studyの強みは、対象がナースなので医療インテリジェンスが高いこと。つまりアンケート結果の信頼性が高いのですが、それでもmisclassificationは生じえます。

 

✔他

・母集団は似ていると言えるか。

→いわゆるTable 1の情報です。年齢やBMI、人種などなど。これらが「ホルモン補充療法→アウトカム」のeffect modifierである場合、当然結果は異なってきます。

 

・exposureは同じと言えるか

→RCTでは単一(もしくは数種類)の介入を割り当てます。ホルモン製剤だったら用量まで同じ。

→でも観察研究だと、人によって異なりますね。

→これを一般化して「ホルモン補充療法」という介入として評価できるか、というのがポイントになります。

 

 

*******

主要なものはこんな感じだと思います。

まとめるとこんな感じです:

・proportional hazardが成り立ってない

・フォロー期間が異なる

・WHIでpost-randomization confoundingが結構ある

・NHSでresidual confoundingが否定できないし、アンケート調査に基づいているので不正確な要素がある

・同じpopulation, exposure, outcomeとして一般化できるか?

 

 

どちらも大規模かつ綿密に計画された行われた研究にも関わらず、こんな真逆の結果になってしまうとは。バイアス恐ろしや、ですね。

ただ、どういう原因でこのようなバイアスが生じるか、というメカニズムを熟知することで、解釈可能となります

 

疫学研究、臨床研究を解釈する際は、論理的かつconservativeに批判する目を持つのが正解です。

 

 

結論

色々なバイアスのせいで、観察研究とRCTでは結論が真逆になりうる。

その原因を理解するのが大事。

ではまた。

-疫学・臨床研究, 論文解説

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.