ビッグデータの時代。解析方法も発展した。
データをたくさん使った観察研究なら、色々言える気がします。
お金も手間も時間もかかる、ランダム化試験ってやる意味あるんでしょうか。
また、観察研究とランダム化試験ではどれくらい結論に差がでるものなのでしょうか。
そもそも、本質的にはどんな違いがあるのでしょう。
誰しも思うこれらの疑問を、「観察研究で示されたエビデンスが、実は真逆だとRCTで示された事案」を基に解説していきます。
Contents
ランダム化試験 vs. 観察研究
*この記事はランダム化試験と観察研究(コホート研究)の違いが分かっている前提の記事です。不安な方はこちらにて
ランダム化試験(RCT)ってなんでやるんでしょう。
そりゃあ、ランダムに割り振ってアウトカムを見れば、フェアな比較で「その介入の効果」という因果関係が言える気がします(因果関係と相関関係の違いはこちら)。
しかし、今や色んな情報が取れるし、解析方法も進歩しています。
観察研究でよくないですか?
ランダム化試験って、「〇〇が☓☓に効くか」という1つのことを証明するために、何千人という参加者を募って、何年もフォローアップする必要があります。
何千万円、何億円とかかる研究もざらにある。
こんなことする意味あるんでしょうか??
**********
医学のエビデンスは、まさにランダム化試験で成り立っていると言えます。
こうなったのは歴史があります。
観察研究で示されたエビデンスが、実は真逆だとRCTで示された事案。
どんな風に(ランダム化試験によって)医学が進歩していったか知ることで、今のランダム化試験の立ち位置がわかります。
まずは、心血管病に関する今までの歴史を紹介します(JACC 2020 10.1016/j.jacc.2020.05.069)。
どれだけ観察研究が当てにならないか。びっくりするはず!!
「なぜ誤った結論となってしまったか」ごとに分けて紹介していきます。
病態生理を理解しきれていなかった事案
病態生理の理解が不十分であったため、治療対象となる病態が「死亡率上昇の原因である」と誤って認識されたことが原因です。
✅心筋梗塞後の抗不整脈薬
循環器界隈では超有名な話です。
1970年代、心筋梗塞後の心室期外収縮が予後に関連するという報告を受け、そういう患者に心室期外収縮を抑えるため(1群)抗不整脈薬が頻用されていました。
しかし実は、そのpracticeは予後の悪化に寄与していたのです!!(CAST試験)
今や、心室期外収縮を治療することはありません。
治療対象は心室頻拍であり、治療法はICD植え込みです(アミオダロンを使うこともあります)。
✅Recent MIの血行再建
これも循環器では常識です。
1990年代、最近(発症後3日以降)の心筋梗塞(recent MI)の詰まった冠動脈を治療した方が予後が良いと、観察研究でいわれていました。
しかし実はそうではなかった!!!(OAT試験)
今や、recent MIの血行再建にはかなり慎重です。
✅HDLコレステロールの治療?
・HDLコレステロールが低いと予後が悪いというのは有名な話で、様々な研究で確かめられています。
→しかし、HDLコレステロールが心血管疾患の「原因か」ということは、なかなかはっきりしていませんでした。
様々な「HDLコレステロールを上昇させる薬」が開発されましたが、予後を改善させることは全然できませんでした。
→今や第一選択はスタチンほぼ一択ですね。
*********
MI後の心室期外収縮自体や低いHDLコレステロール自体が悪い予後な原因なわけではありませんでした。
それらは、別の本当の原因の表現にすぎなかったということです。
サロゲートアウトカムが適正でなかった事案
サロゲートアウトカムとは、一番知りたいアウトカム(死亡など)を強力に予測する他のアウトカム(詳細こちら)。
サロゲートアウトカムがよくなれば生存率も伸びうる、と言いたいところなのですが、、、
そうではないケースも多々あります。
✅心不全にミルリノン
ミルリノン(ホスホジエステラーゼ3阻害薬)は、EFの低下している心不全に対し、EFを上げる作用が注目され、使われてきました。
しかし、それは死亡率を上げることがランダム化試験で判明したのでした。。(PROMISE試験)
→結局、今では基本的に使われなくなりました。
✅心房細動のリズムコントロール vs. レートコントロール
心房細動のリズムコントロール(心房細動でなく洞調律を維持する治療)は、明らかに心房細動より洞調律の方がよいだろうという考えの下、(昔は薬を使って)行われてきました。
しかしこの治療法は死亡率を減らさず、むしろ入院を増やすことがRCTで言われたのでした(AFFIRM試験)
→もちろん洞調律の方がいいんですが、抗不整脈薬の副作用が強かったということ。
今でもこの分野はホットです。
e.g.) カテーテルアブレーションによるリズムコントロールは心不全患者の予後をよくすることなどが示されてきています(CASTLE-AF試験)
*****
☆EFが良ければよいだろう。洞調律なら良いだろう。
こういうサロゲートアウトカムは大事なのですが、「心臓病とその治療」という複雑な全体図の中では、そこじゃなかったんです。
観察研究でのバイアスにより結論が違った事案
解析手法に穴があったため、結論が真逆となってしまった事案です。
RCTの解析は単純ですが、観察研究はしっかりやろうとすると大変です。
✅閉経後のホルモン補充療法
閉経後のホルモン補充療法は、観察研究では良い結果であったため、(特にアメリカでは)よく使われていました。
しかしWomen’s Health Initiativeという大規模ランダム化試験にて「予後を悪化させる」と結論されました。
→これは疫学研究上かなり重要な研究です
→次章で詳細に解説します。
✅Multivessel diseaseの血行再建
ST上昇型心筋梗塞の際、他の冠動脈に狭窄があった時、そこは追加治療しない方がよい、というのがガイドラインで定まっていました。
なぜなら、基本的に「安定狭心症」に対する血行再建は予後を変えないから(心筋梗塞などの分類はこちら)。
しかしRCTを行うと、すべて治療する戦略(complete revascularization)の方が、責任病変だけの治療(culprit-only revascularization)より成績が良かったのです(COMPLETE試験)
→これは、観察研究でcomplete revascularizationされる人というのが、culpritの治療だけですむ患者より明らかに動脈硬化が進んでおり、予後が悪かったため。
→それが十分に調整されていなかった事が原因かと考えられます。
*******
観察研究では、因果推論を行うために、
・residual confoundingがない
・selection biasがない
・information bias (measurement errorなど)がない
・model misspecificationがない
という仮定をおく必要があり、全て成り立つことはほぼあり得ません。
これは後述していきます。
詳細はこちらにても解説済み
予想だにしなかった効果があった
逆にRCTしたら良い効果がわかったというのもあります。
✅SGLT2阻害薬は何の薬?
SGLT2阻害薬というのは、当初血糖降下剤として認可されました。
(今もですが)糖尿病患者の治療戦略の一つという立ち位置の薬。
しかし大規模RCTをしてみると、心不全による入院を減らす効果が!!!(DECLARE–TIMI 58試験など)
全く想定外の、良いニュース。
今や心不全治療薬として確立してきています(この記事にまとめあり)。
結局「理想的なランダム化試験」をしてみないとわからない
因果関係をはっきりさせるにはランダム化試験が必要なのが、お分かりいただけたかと思います。
紹介した論文には他の例もたくさん紹介されています。
興味ある方は読んでみては。
観察研究では決定的な事は言えません。
それでも、最近はかなりデータを集めたりモデルのassumptionをはっきりさせることで、観察研究の質が上がっています。
JAMA系の雑誌では、観察研究の文面は「causal language(因果関係を示唆するような言い回し)」は徹底的に避けるよう指示されます。
つまり、上述した「観察研究のlimitation」に研究者たちは気づいてきているのです。
これは科学の進歩であり、まれに「観察研究だけど因果推論ができていそうな研究」が発表されてきています。
理想的なRCT
また、どんなランダム化試験でもOKというわけではありません。
理想的なランダム化試験は、次の7つの条件を満たす必要があるとされます:
✅介入のランダムな割付
→これは当然
✅ほぼ無数のサンプル数
→最低限の人数確保として、power分析が行われます
✅Lost follow-upなし
→IPWによる調整法があります(こちら参照)
✅割付された介入へのアドヒアランスが100%
→これができないからintention-to-treat (ITT) analysisがよく行われますね
✅well-defined intervention
✅well-defined outcome
✅二重盲検化割付
→患者も医師も、どちらの治療かわかってしまうとバイアスが生じます
因果関係を言うには、質の高いランダム化試験が必要。
だが、どんなランダム化試験でも、因果関係の効果をはっきりさせるには不十分。
と言うことなのです。
こう考えると、常に
・residual confoundingやunmeasured confounders
・selection bias
・model misspecification
から逃れられない観察研究は、因果関係を言うにassumptionが多すぎる(つまり因果関係は言えない)。
やっぱりランダム化試験が必要ですね。
実際、観察研究とランダム化試験で結果はどれほど異なるか?【閉経後のホルモン補充療法】
さて、観察研究だけでは因果推論をすることは難しいことが理解いただけたかと思います。
それでは、「実際どれほど結論が異なってくるのか」、具体例をみていきたいと思います。
紹介するのは、「閉経後のホルモン(エストロゲン)補充療法により心血管病が増えるか?」という因果関係を調べた2つの論文。
・Nurses Health Studyというコホートを対象とした観察研究(N Engl J Med 1996;335:453-61.)
・Women’s Health InitiativeというRCT(JAMA. 2002;288:321-333)
です。
この2つの研究は、予防医学領域では極めて有名なもの。
当然観察研究の方が先に発表されています。その後、RCTにて確かめられた、という時系列。
結論はどういう違いとなったのでしょう??
それぞれ簡単に紹介していきます。
Nurses Health Studyの解析
研究デザインはこんな感じです。
👇
✔6万人の心血管病の既往が無い閉経後女性が対象
✔暴露因子はホルモン製剤の使用
→never userがreferenceで、past userとcurrent user(エストロゲン単独 or エストロゲン+プロゲステロン)を比較しました
✔アウトカムは心筋梗塞か心筋梗塞による死亡
✔COX proportional hazard modelを使ってハザード比を算出
✔調整因子はかなり網羅的
✔フォロー期間は16年
結果は、never userに対し、
・エストロゲンのみを使用中:HR 0.60 (0.43-0.83)
・エストロゲン+プロゲステロンを使用中:HR 0.39 (0.19-0.78)
・上のどちらかを使用中:HR 0.60 (0.47-0.76)
・過去に使用歴あり:HR 0.85 (0.71-1.01)
よって、ホルモン補充療法は冠動脈疾患のリスクを下げる、と結論しました。
Women’s Health Initiativeの結果
研究デザインはこんな感じです。
👇
✔1.7万人の心血管病の既往が無い閉経後女性が対象
✔エストロゲン+プロゲステロン vs. プラセボ にランダム化
✔アウトカムは心筋梗塞か心筋梗塞による死亡
✔COX proportional hazard modelを使ってハザード比を算出
✔フォロー期間は平均5.2年
結果は、ホルモン補充療法群がHR 1.29 (1.02-1.63)
よって、ホルモン補充療法は冠動脈疾患のリスクを上げる、と結論しました。
*なお、このRCTは、他のアウトカムである乳がんの発症がホルモン補充療法群で有意に多くなったことから、途中で中止となりました(フォロー8.5年の予定であった)。
真逆の結果・・・・なぜ。
そう、この2つの研究が何故有名かというと、真逆の結果になったからなのです。
いくつか重要なポイントがあります。
これを理解することが、観察研究 vs. RCTを解析・解釈する上で極めて重要になります。
5つほどあります。
これを抑えたら完璧!!
では行ってみましょう!!!
✔そもそもProportional hazardというassumptionが成り立っていない
介入に感受性の高い人は早期にアウトカムを発症、残るはそもそもアウトカムになりにくい人達なのです!!
つまりフォローの最初の頃と最後の頃では母集団の性質が異なります。
よって、Proportional hazardというassumptionは成り立ち得ないのです。
(built-in selection biasと言います)
だからproportional hazardを前提とするCOXモデルでハザード比を比較するというのは、そもそも妥当でない。
RMSTなど、他の指標が適切なのです。
詳細はこの記事にて!
✔同じハザード比でも、フォロー期間が異なると意味合いが異なる
フォロー期間が長いほど、上記の選択バイアスが顕著になります。
より具体的に言うと、10年後もイベントなしで経過している人は、そもそも心筋梗塞にめちゃくちゃなりにくい人だということです。
Nurses Health Studyでは16年ものフォローアップ。
これではフォロー5年のWomen’s Health Initiativeと見ているものが違います。
✔RCT特有のバイアス
RCTには交絡因子が無いからといって、バイアスが無いわけではありません。
一番重要なのは、post-randomization selection bias。
→例えばlost follow-up(フォローできなくなる)だったり、non-adherence(振り分けられた介入を守らない)だったり。
紹介したWomen’s Health Initiativeというのは、ホルモン製剤を何年も内服し続けるという過酷な介入でした。
🔘lost follow-upは3.5%でしたが、
🔘介入を途中でやめてしまった人は
・ホルモン製剤群で42%
・プラセボ群で38%
と非常に多かった。
🔘しかも途中で新しいホルモン製剤を始めた人も
・ホルモン製剤群で6.2%
・プラセボ群で10.7%
と結構いました。
解析はintention-to-treatといって、もともと割り振られた群での解析になります(そうでないと交絡因子がでてきてしまいますね)。
でもこれだけadherenceが悪いと、何の介入をみているのか、さっぱりわかりませんね。
*ただ、per-protocol analysisでも同様の結果でした。
そして、上のpost-randomization biasは、ハザード比が1に近づく方向のバイアスになります。
つまり、それでもハザード比が高かったということは、ホルモン製剤は実際はもっと悪いことが示唆されます。
✔Residual confounding
ランダム化試験は交絡因子が排除されます。
しかし、観察研究では、いくら網羅的に調整しても交絡因子が調整しきらないのです。
residual confoundingと言います。
→つまり、「ホルモン補充療法をする人の特徴」と「しない人の特徴」を合わせきることができていなかった可能性は否定できません。
*ただ、それが無いように無いようにすごく配慮して観察研究が行われます。
今回紹介した研究も、(これ以上できないくらい)かなり網羅的に調整しているので、これでもresidual confoundingがあるなら、他の研究はどれだけあるんだって感じです。
✔観察研究はアンケートをベースにするという問題
「ホルモン製剤を内服しているか」は、ランダム化試験では実際に薬のピルを割り振りますが、観察研究ではアンケート結果に基づきます。
Nurses Health Studyの強みは、対象がナースなので医療インテリジェンスが高いこと。
→つまりアンケート結果の信頼性が高いのですが、それでもmisclassificationは生じえます。
✔他
・母集団は似ていると言えるか。
→いわゆるTable 1の情報です。年齢やBMI、人種などなど。
これらが「ホルモン補充療法→アウトカム」のeffect modifierである場合、当然結果は異なってきます。
*実際「RCTの参加に同意した人たち」というのは、なかなか一般化できないでしょう。
・exposureは同じと言えるか
RCTでは単一(もしくは数種類)の介入を割り当てます。ホルモン製剤だったら用量まで同じ。
→でも観察研究だと、人によって異なりますね。
→これを一般化して「ホルモン補充療法」という介入として評価できるか、というのがポイントになります。
WHIとNHSの違いまとめ
吐き気がするほど色々ありましたね。。。
まとめてみましょう
👇
・proportional hazardが成り立ってない
(というか基本的に成り立たない)
・フォロー期間が異なる
・WHIでpost-randomization confoundingが結構ある
→lost follow-upも、アドヒアランスも悪いのでした
・NHSでresidual confoundingが否定できないし、アンケート調査に基づいているので不正確な要素がある
・同じpopulation, exposure, outcomeとして一般化できなそう
どちらも大規模かつ綿密に計画された行われた研究にも関わらず、こんな真逆の結果になってしまうとは。
バイアス恐ろしや、ですね。
ただ、どういう原因でこのようなバイアスが生じるか、というメカニズムを熟知することで、解釈可能となります。
疫学研究、臨床研究を解釈する際は、論理的かつconservativeに批判する目を持つのが正解です。
結論
観察研究とRCTでは結論が真逆になりうる。
現状ではRCTが必須。
しかしRCTでも色々なバイアスが生じうる。
観察研究では注意しなければならないことがより多く、なかなか因果推論を行うのは難しい。
これらの構造を理解するのが本質的に大事。
ではまた。