暴露因子を決める時に気をつけること【well-defined intervention/exposure】

臨床研究・疫学研究において最も重要なことは、暴露因子とアウトカムを定めることにあるといっても過言ではありません。その組み合わせの因果関係を言うことが、ほとんどの研究の主題です。ランダム化試験ではデザインの段階でこれが決まります。この記事では、コホート研究において暴露因子を決める際に気をつけること、well-defined exposure/interventionについて解説します。人での研究に携わる方は是非一読下さい。

暴露因子(exposure)ってなに?

暴露因子(exposure)ってなに?

そもそも暴露因子とは聞き慣れないかもしれません。研究では、暴露因子=見極めたい因果関係の原因、と考えて問題ありません。いわゆる「暴露」という意味合いとは少し異なります。

*******

たとえば「ビタミンDのサプリは心血管病予防に効果的か」という最近のランダム化試験(N Engl J Med. 2019;380(1):33–44.)の暴露因子は、「ビタミンDサプリの服用」です。

たとえば「性別によって〇〇の効果が異なるか」という研究の暴露因子は「性別」です。

たとえば「心臓カテーテル検査後のあるバイオマーカー(トロポニン)上昇が、その後の心血管予後と関連するか」という私の論文(Open Heart. 2017;4(1):e000586.)の暴露因子は、「心臓カテーテル検査後のトロポニン上昇」です。

*******

これから、この暴露因子を定める際に重要な3つのポイントを説明していきます。

ポイント①:誰が聞いても間違いようのない定義か(曖昧な定義でないか)

当たり前ですが、これをはっきりさせないと研究になりません。

******

ビタミンDサプリの服用:どのくらいの用量のビタミンDサプリをどのように服用するか。上述の研究では、1日2000IUのビタミンDサプリの服用、と定義しています。

性別:ふつうbiologicalな性別(sex)です。社会学の研究では、暴露因子がgenderになることがあります。

カテーテル検査後のトロポニン上昇: Upper reference limit値を越え、かつ20%以上の上昇と定めています。

*******

このように、極めてobjectiveにexposureを定義します

ポイント②:過去の文献や専門家のコンセンサスの基づいた定義か

例えば肥満が暴露因子の場合、一点の計測時にBMI>30というのが定義なのか、BMI>35なのか、1年間に渡ってBMI>30を維持していることか、色々設定しようがあります。これは、ふつう過去の文献に基づいて決めます。過去文献がない場合、誰でも納得できるように考えて決めます。

例えば、私の論文執筆時はカテーテル検査後のトロポニン上昇に関して調べた過去文献はありませんでしたが(だから研究になるのですが)、急性冠症候群の診断ガイドラインに基づきトロポニン上昇を定義した所、acceptされた、という感じです。

ポイント③:その因果関係を証明する意義があるか

ポイント③:その因果関係を証明する意義があるか

これが大事なのは根本的で当たり前なのですが、はっきり意識している方は少ない(私もそうでした)かもしれないので、説明します。

例えばカテーテル検査後のトロポニン上昇が、その後の心血管予後と因果関係があるか調べた私の研究をみてみます。この因果関係を証明する意義はあるでしょうか。

・・・はっきり言ってありません。

・・・・

どういう事かというと、カテーテル検査後のトロポニンが上昇していることが原因で心血管予後が悪くなるとして(実際高いトロポニン値自体というよりはそれが示すconditionが原因なのですが)、だからどうした、ということです。そのconditionをかえることができないなら、意味がないわけです。

でもトロポニン上昇が悪い予後を予測するんだから有用なんじゃない、と言ってくれる方、有難うございます。ただ、悪い予後の予測だったら、因果関係でなく相関関係で十分なのです。この違いは別記事でも解説しますが、「トロポニンが上昇したらその患者の予後は悪いんだろう」という事は、因果関係でなく「トロポニン上昇と予後のunivariateな関連性」をみれば十分、ということです。

もっと深堀りします。「この患者は高齢だからトロポニンが上昇したんだろう」「腎機能が悪いから」。こういうセンテンスは、「〇〇だから」の〇〇が交絡因子であることを暗に示唆しています。そして(私の論文でも確かめようとした)因果関係とは、「年齢も腎機能も・・・・・も全部同じだったときに、トロポニン上昇がその後の心血管予後と関連するか」という事です。

この因果関係が真実だったとすると、カテーテル検査後にトロポニン上昇した患者をみて、「この人はカテーテル検査後にトロポニン上昇する、という悪いconditionを持つ人だ」という認識を持つことができます。そういうconditionが何か分かっていれば科学的には面白い考察ですが、純粋に「トロポニンが上昇した。この患者は予後が悪いんだろう」ということと、臨床上そんなに差がある考察とは思えないわけです。

******

まあ、そこまで考えなくても臨床研究なら論文にはなります。なぜなら、多変量で調整したモデルの意味合いが因果関係を追求するためだ、と認識している医者が少ないからです。本来は、「かなりlimitationはあるが、コホート研究で因果関係を言及するために多変量で調整する」のですが。臨床研究では、多変量で調整したモデルの解釈は、「〇〇(暴露因子) was independently associated with ☓☓(アウトカム)」と書きます。この記述は間違っていませんが、その意味合いは上述した通りです。

どういう暴露因子が意味のある暴露因子か

では、どういう暴露因子ならOKなのでしょうか

サプリの服用、はOKです。なぜならそれは介入だから。介入なら、介入をするかしないか選べるので、もし介入とあるアウトカムの因果関係が証明されれば、その介入をした方が良い・しない方が良い、と言及できるため、意味があります。

一方、状態を暴露因子とするのは気をつけて下さい

これは当たり前ですが、非常に大事です。コホート研究において、この点を意識している人が少ないからです。例えば、BMI>30で定義された肥満(状態)が暴露因子、今後10年間の心筋梗塞がアウトカムとして、コホート研究で因果関係を言及したとします。しかし、それは上述のトロポニンと同じく、そんなに意味はありません。一方、「5年間でBMI>30がBMI≤30と体重減少したこと(介入)」という事を暴露因子として同様の因果関係を言及できれば、BMIを減らすという介入が意味のある介入だろう、と推察され、意味のあることが言及できます。

※コホート研究では、実際に「介入」はされて無いのですが、コホート研究で因果推論を行うことを念頭に置くと、あたかもランダム化試験が行われたかのようにかんがえます。

BMI>30という暴露因子で言及された因果関係が全く意味ない、とは言いません。その研究があると、「5年間でBMI>30がBMI≤30と体重減少したこと」という暴露因子を検証する理由になるからです。そしてコホート研究で「5年間でBMI>30がBMI≤30と体重減少したこと」が心筋梗塞を減らすと報告されると、そのランダム化試験を行うことが検討されます。このようにエビデンスが蓄積されていくわけです。

*****

性別に関しては、性による不公平性(disparity)を証明したい場合、意味のある暴露因子と言えます。様々な他の条件が同じだとした時に、性別によってアウトカム(例えば年収)が異なれば、「性別を原因として年収が異なる」と意味のあることが言えます。

言いたいことは、しっかり考えて暴露因子を定義したほうが良い、という事です。その研究自体にあまり意義がないとしたら、今後どういう研究(暴露因子とアウトカムの組合わせ)を検証する礎となるのか。こういう自分の研究の立ち位置みたいなことをはっきり認識できると、良い研究となります。

結論

暴露因子の定義は、研究の根幹です。

・誰が聞いても間違いようのない定義か

・過去文献や専門家のコンセンサスに基づいた定義か

・その因果関係を証明する意味があるか

このポイントに気をつけましょう。ではまた。

平均因果効果のコンセプトと限界

現代の臨床研究・疫学研究ほぼ全ての論文は、‘平均因果効果’ という指標で「因果関係の度合い」を評価しています。平均なので、比較的健康な人に対する効果も具合の悪い人に対する効果も平均されてしまいます。それで良いのでしょうか?

この記事では、平均因果効果のコンセプト、その解釈、限界、将来の展望について説明・考察します。この記事を読むことで、全ての研究論文への見方が少し変わるかもしれません。また、今の因果推論とはどんなことか、今後どう変わっていきそうか、目星がつくかもしれません。

平均因果効果 (average causal effect)とは

平均因果効果 (average causal effect)とは

お酒による酔いやすさの効果を調べました。日本人1000人とアメリカ人1000人を含む集団を対象として、日本酒を2合飲む前と後、日本の酒気帯び運転を取り締る ‘千鳥足の検査’ に何人ひっかかるか 調べました。日本酒を飲む前は、一人も検査にひっかかりませんでした。飲酒後、日本人は500人、アメリカ人は100人引っかかりました。この研究から、「日本酒を2合飲むとどのくらい酒気帯び運転の検査に引っかかる」でしょうか。日本人とアメリカ人の結果が平均され、1000人のうち300人が引っかかるようになる、と結論されます。これが平均因果効果です。でも、この結論は少し無理があると思いませんか?

実際の研究では、「人種が交絡因子として調整されると、日本酒2合により母集団のうち30%が検査に引っかかるようになる」という難しい言い方をします。そして実際は、人種だけでなく年齢や性別など色々な因子で調整されます。が本質的には、やっていることは上の通りです。母集団ってなんなの?

質の高いランダム化試験でも、言える結論は一つだけ

質の高いランダム化試験でも、言える結論は一つだけ

ランダム化試験は、因果関係を推定する上でエビデンスレベルが高いとされています。2019年にNew England Journal of Medicineという最も権威の高い医学誌に掲載された研究をみてみます(N Engl J Med 2019;380:23-32.)。これは、25871人(うち5106人が黒人)の参加者を、オメガ3脂肪酸のサプリと偽薬にランダムに分け、心血管疾患の発症率を見たものです。サプリ群のハザード比は0.92(95%信頼区間:0.80-1.06, p=0.24)で、明らかな効果は認められなかったと結論されています。でも黒人は他の人種より魚を食べる頻度が少ないのです。すると、魚の栄養素であるオメガ3脂肪酸のサプリは、(白人と比較し)黒人により効果的だと思いませんか?このハザード比は、この研究に含まれる全ての人種を平均した影響なのです。

もちろん、この試験に参加した5106人の黒人に限定した解析をすることもできます(ランダム化試験なので、黒人に限ってもサプリ摂取はランダムです)。本論文で解説されていますが、黒人でのハザード比は0.74(95%信頼区間:0.53-1.03)でした。でも、これはprimary findingではありません。もしこれがもっと効果的であっても、p値が低くても、「黒人には効く」と結論することはできません。なぜなら、この研究はデザインの段階で「オメガ3脂肪酸のサプリの影響を確かめるためには〇〇人必要」と計算されているからです。この研究から得られる結論は、本研究の母集団において、ハザード比=0.92だということです。母集団ってなんなの?

こういうランダム化試験のメタ解析で、このような「黒人での効果」の情報を集め、黒人だけに絞った解析は可能です。が、黒人の中にも色々いますよね。魚を食べる人も、食べない人もいます。若い人も若くない人も。運動する人もしない人も。こういう詳細まで解析することは不可能です。ここでいう「〇〇な人は、サプリによる心血管疾患予防効果が異なる」の「〇〇」をEffect modifierと言いますが、Effect modifierを調べ尽くすことは無理だということです(effect modificationについてはまた記事にします)。

もう少し詳細に言うと、ランダム化研究で信頼性を持って言及できる因果効果は、そのメインのexposure(サプリ)とoutcome(心血管疾患)についてのみであり、そのランダム化試験のデータ上有意に認められるEffect modificationは基本的にはhypothesis generatingな結果です。なぜなら、(統計的なpowerが十分にある)Effect modificationの証明には、メインのランダム化試験よりも必要なサンプル数が多いからです。ランダム化試験は、そのメインの因果関係を証明するためにデザインされます。簡単にいうと、真実を言いたければ、「30代の黒人の魚をあまり食べないで運動しない人」を対象にしたランダム化試験が必要で、それによりやっとその母集団でのハザード比を言うことができる、ということです。

平均因果効果は限界にきている(と思う)

最近永ちゃんがインタビューで言っていました。彼はなんと70歳になりましたが、現役でライブをやり続けています。「はいあなた60ね、あなた65ね、あなた70ね。70だと高齢者。って、同じ70なわけないでしょ。」ここに本質があります。平均因果効果でわかることは、元気な70歳もよぼよぼの70歳も皆平均したときの、サプリの効果なわけです。頑張って詳細な解析をしたとしても、60の人での効果や、70の人での効果です(これもeffect modificationです)。つまり、人によって全然違うであろう「サプリの効果」を、人それぞれに対し(オーダーメイドに)推定することは、「平均因果効果」の理論上不可能です。この理論(counterfactualの理論)は、ハーバードでRobinsやMiguelといった有名人が確立し、今疫学研究と臨床研究で世界のスタンダードとなっているものです。

平均因果効果の理論でわかることは、その母集団についての平均した効果です。その母集団ってなんなの?というと、基本的には地球人を対象としていると理解しています(自分は)。例えば安定狭心症に対するある薬の臨床研究では、地球人全ての安定狭心症患者に対する平均した薬の効果。健康な人でのアルコールの悪影響を調べる疫学研究は、地球人全員に対する平均した悪影響(この論文が典型的:Lancet 2018; 392: 1015–35  内容解説はこの記事)。

つまり究極的にわかる(知りたい)ことは、「地球人にとって平均的に」赤肉は健康によいのか、タバコは健康に良いのか、ということです。つまり今までの疫学研究の結果、赤肉やタバコは地球人にとって平均的に健康に悪い事が証明されたわけです。これはとても大事な情報で、例えばWHOのガイドラインや政策、医学学会のガイドラインに応用される根拠となります(タバコ税導入の根拠となります)。一方、だからといってタバコを吸って長生きする人も、赤肉を食べまくって長生きする人もいて不思議ではありません。なぜなら、証明された因果関係は、地球人を平均したときの効果だから。実際は、薬が効く人も効かない人も、タバコを吸って早死する人も長生きする人もいるわけです。

そして、〇〇の人はタバコを吸っても大丈夫、という〇〇を証明することは、counterfactualの理論ではかなり難しいのです。Effect modificationをみつけるということですが、上述したように、これを証明するにはかなりのpower(サンプル数)が必要だし、実質的に1回に1つずつ(年齢とタバコ、性別とタバコ、のように)しか証明することができません。年齢のEffect modificationの証明すら難しいのに、同じ60歳の ‘元気度’ を区別するようなことは、到底できないわけです。バズワードを用いれば、個別医療の発展に寄与しにくい理論だと思います。そして、この理論と機械学習の相性があまり良くないという問題もあります(応用できなくはないですが、信頼区間の推定につかえる程度です。詳細は後日)。なので、新しいフレームワークが必要です。

今、機械学習やAIの分野で、機械学習モデルのInterpretationとか、Individual treatment effectのpredictionの領域が非常にHOTに研究されています。単純に考えても、prediction modelの精度が100%に近づけば、因果推論を行うことが可能です(predictionと因果推論は2020年時点では全く異なります。詳細後日)。タバコを吸い続けたら3年以内に肺癌になることが100%予想され、もしタバコを止めたら3年以内に肺癌にならないこと100%予想されれば、prediction modelから因果推論されたこととなります、おそらく(詳しい方いたら教えて下さい)。私は勉強中の身で語れるほど詳しくないですが、この辺りもいつか説明したいと思います。少なくとも平均因果効果の理論はprecision medicineと相性があまり良くないので、おそらく近い将来、因果推論に関して大きなパラダイムシフトが起こると思います。

結論

平均因果効果は大事だけれど、個別医療を進めるにあたって限界がある、という話でした。

そして、因果推論に関して、近くパラダイムシフトが起こると予想してみました。

ではまた。

95%信頼区間を正しく計算し、解釈する

95%の確率で、95%信頼区間の中に本当の値がある。」残念ですが、違います。95%信頼区間をどうやって計算するか、どう解釈するか。これは ‘疫学’ に親和性が高い話なので、疫学を体系的に学んだことが無いと知らなくても不思議ではありません。そして、知らなくても論文は書けます。

しかし、正しいコンセプトを知らないと、解釈が間違ったり、応用が効きません。独学で研究をやっていれば必ず直面する問題です。特にSPSSやJMPやEZRを使っている方は注意する必要があります。この記事では、95%信頼区間の正しい計算方法と、その解釈を説明します。確認してみてください。(簡略のため、この記事は回帰モデルにおける一つの計算法のみ言及します)

p値についてはこちら

95%信頼区間の正しい計算方法

95%信頼区間の正しい計算方法

95%CI (confidence interval)は、平均±1.96 * SE (標準誤差)です。ただ、そのまま使って良いのはLinear regression(線形回帰)です。

Logistic regressionやCOX proportional modelでは、exp(平均±1.96 * SE)が95%CIとなります。exp(A)とは、e(自然対数の底)のA乗、ということです。

**********

例えば、Logistic regressionのoutputはこのような感じです。

 EstimateStd. Errorz valuep value
(Intercept)-3.072.1-1.460.14
年齢0.0250.00693.58<0.001
糖尿病0.520.371.420.16
脂質異常症-0.20.37-0.520.6

論文に載せるときは、これをこのようにしたいわけです。

 Odds ratio95% CIp
年齢1.021.01–1.04<0.001
糖尿病1.680.81–3.470.16
脂質異常症0.820.4–1.690.6

この計算方法はmust know!です。

exp (Estimate)とすると、それぞれのOdds ratioが求められます。

②95%信頼区間は、exp(Estimate±1.96*SE)で求められます。例えば、糖尿病の95%信頼区間の下限は、exp (0.52–1.96*0.37) = 0.81、ということです。

********

連続変数のOdds Ratioの解釈も気をつける必要があります。よく勘違いしている人(臨床医)がいます。

糖尿病のOR 1.68とは、「糖尿病がある人が、ない人と比べ、1.68倍のオッズがある」という事を意味します。

年齢のOR 1.02とは、「1歳年齢が上がるごとにオッズが1.02倍となるというのは間違いです。正しくは、「1歳下の人と比較するとオッズが1.02倍だ(0.02高い)」という事です。10歳差のORは、exp (0.025*10) = 1.28です。10歳下の人と比較すると、オッズは1.28倍です。

95%信頼区間の解釈

95%信頼区間の解釈
Christensen E. J Hepatol. 2007;46(5):947‐54

冒頭に書いたとおり、「95%の確率で、95%信頼区間の中に本当の値がある」とは間違った解釈です。正しくは、「同じ母集団から同じ研究を100回繰り返し行った時、95の研究でだされた95%信頼区間の間に、本当の値がある」という事です。

上の図がこれを示しています(Christensen E. J Hepatol. 2007;46(5):947‐54)。aのグラフでそれぞれの線が一つの研究で得られた結果で、真ん中の垂直の線が真の値です(これは誰にもわかりません)。例えば狭心症患者についての研究であれば、世の中にいる5000万人くらいの狭心症患者について、ある治療が有効なことを言いたいわけです。が、自分の研究の患者数は1000人くらい。自分の研究で出されたORは0.8で95%信頼区間は0.7-0.9だったとします。これが、このうちの一本の線ということです。アメリカのグループで行われた研究の95%信頼区間は0.6-0.8かもしれません。このように、研究によって信頼区間は勿論異なります。

仮に同じような研究が100回行われたとして、信頼区間が低い順に並べたのが、bのグラフです。自分の研究は上から10番目のもので、本当の値(OR: 0.85)を含んでいましたが、アメリカの研究は上から3番目のもので、本当の値は95%信頼区間外でした。OR 0.85とは、その治療を受けると、死亡するオッズが0.85倍となるということです。

が、実際に同じ研究が100回行われることはありません。なので、自分の研究で認められた95%信頼区間が、グラフbのどの線なのか、わからないのです。あなたの研究は、上から4番目の線かもしれません。その場合、100%の確率で、あなたの研究の95%信頼区間は真の値を含まないのです。

別の言葉で言うと、あなたの研究の95%信頼区間に真の値が含まれるかはどうかは、0%か100%です。仮に同じ研究が100回行われたとしたら、その95回は100%真の値を含む、ということです。

結論

logistic regressionは平均±1.96 * 標準誤差をした後にexpしたものが95%信頼区間ということ。

解釈は、「同じ母集団から同じ研究を100回繰り返し行った時、95の研究でだされた95%信頼区間の間に、本当の値がある」ということ。

これらは非常に大事なので、ここで抑えておきましょう。

ではまた。

p値について私達が知っておくべき事

研究をする方は、p値(p value)とはよく向き合うと思います。p<0.05なら差がある、p≥0.05なら差がない。だいたい差を証明したいので、「p<0.05、よっしゃー!」という感じでしょうか。一方、「p値だけみるのは駄目だ!」という偉い人の意見も聞いたことがあるかもしれません。p値は簡便ですが、かなり誤解・誤用されている統計指標です。

この記事では、p値とは何か具体的に理解し、その上で最近のp値に関する論争・専門家の考え方を紹介します。この記事を読むことで、p値の正しい考え方と限界を具体的に理解することができます。簡略のため、この記事ではone-sidedとtwo-sidedについては無視します。そして、使用している統計モデルが正しくバイアスが無い前提です(別記事で説明します)。

p値とは?

p値とは?

30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と言えるでしょうか?

**********

こういう疑問に答えるのがp値。クラスメンバーそれぞれの握力データがあると、統計ソフトでp値を計算でき、p値<0.05だと、「握力はクラスBの方がクラスAより高い、と言える!」と結論している人がほとんどだと思います。が、これではp値の本質が理解できません。より正確に解釈してみましょう。「真実は ‘クラスAとクラスBの握力が同じである’ としたら、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率がp値なのです。p=0.03であれば、「こんなにクラス間で差があるのに、実はクラス間の握力が同じ確率は3%だ」ということです。

ちなみに、この例だと想像しにくいですが、臨床研究では例えば「スタチン投与群とプラセボ投与群の予後比較」です。なので、その研究で認められた違いが、より一般的なpopulation(同じような他の患者)にも同様なことが言えるか、ということが主題となるわけです。p=0.03であれば、他の(同じような)患者にとっても、「本当は予後が変わらないのに、この研究で認められた程以上の予後の差がある確率」は3%ということです。

「第一種過誤が起きる確率」なのですが、別に用語はどうでもよく、コンセプトが理解できていることが重要です。

α=0.05とは?

α=0.05とは?

αとはp値のカットオフのことで、α=0.05の場合、「真実は ‘クラスAとクラスBの握力が同じである’ 時に、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率」が5%未満であれば、その5%は無視するに足ると考えるということです。その場合「‘クラスAとクラスBの握力が同じである’という事が真実だとは考えにくい」と考えて「真実は‘クラスAとクラスBの握力が異なる’」と考える、という意味です(回りくどい表現になってしまいました)。

まとめると、「本当はクラスA=クラスBなのに、クラスA≠クラスBと今結論してしまっている確率」がp値。p<αであれば、その確率は無視できると考え、クラスA≠クラスBと結論する、いうことです。

α=0.05が妥当か論争:Stanfordの批判的意見

0.05をp値のカットオフとしてしまうと問題があります。この問題は、例えばStanford大学の疫学グループのヘッド、John Ioannidisという教授が、権威ある医学雑誌で繰り返し主張しています(Eur Heart J. 2019;40(31):2553–2554., Eur Heart J. 2019;40(31):2555–2556.等)。

******

一番大きな問題は、臨床医がp値しかみないという事です。「差がある」といっても、薬が20%リスクを下げるか5%リスクを下げるかは大きな違いがあります。が、特にランダム化試験において、「p<0.05なら薬は効く」という結論しか注目されない、というのが問題です。

p値しか見ない医師のreviewerは、p<0.05の論文しか採択しません。コホート研究においては(実はランダム化試験もですが)解析やデザインをこねくりまわせば、ある程度恣意的にp値が出てしまいます。よって、恣意的に出したp値の論文しかpublishされない、という問題が生まれます。

また、解析やデザインが正しくても5%の結果(論文)は真実と異なります。つまり、本当は差がないのにあるとする論文が多すぎる、という主張があります。

そして最後に、「プラクティスを変えない、存在意義のない論文が多すぎる」という問題点です。α=0.05だと、誰でも論文が書けてしまい、世の中に論文が氾濫しているのは間違いありませんし、そのほとんどがはっきり言ってpracticalに存在意義がありません(scienceに寄与するか、と言われれば何だってしますが、実質的に世の中へのインパクトはありません)。グラントが世界的に縮小している現在、不必要な研究はカットすべきです。

これらは正しい批判です。John Ioannidisは、これらを定量的に解析し、「α=0.05は妥当でない。α=0.005というカットオフが妥当だ」と主張します。

α=0.05が妥当か論争:Harvardの意見

一方、John Ioannidisの主張は、多くのハーバード疫学者には支持されていません。それは次の理由によります。

********

・John Ioannidisは自身でグラントを獲得したりPIとなってactiveに疫学研究をしていない。彼は研究者でなく、批判者だ。

そもそもp値は解釈可能なパラメタ―である。カットオフはそこまで重要でない。

治療の効果性は、effect sizeやp値など様々な要素を総合して考えるべき

これらも事実です。実際ハーバードの疫学研究では、effect size(握力の違いが15kgなのか5kgなのか)という事を、かなりしっかり考えています。p値の解釈も重要で、因果推論の様々な方法(outcome regression, propensity score, inverse probablity weightingなど)で感度分析をして、本当に差があるかしっかり確認します。

私はハーバードに所属しているので、こちらの意見を支持しています。あなたはどうでしょうか?

大事なポイント(私の意見)

大事なポイント(私の意見

今後α=0.005となるかは、おそらく本質的な議論ではありません。本質的な事は、「p値がどういう意味合いなのか」を理解することにあります。最近のimpactの大きい研究は、p値を全く載せてないものも多数あります(N Engl J Med. 2019;380(1):23–32.等)。これは、最近の「p値は駄目だ!」という風潮に合わせたフォーマットですが、実際の解析は95%信頼区間の解釈が入っており、それはp値と関連するものです(信頼区間に関しては追って説明します)。つまり、フォーマットはいかんとして、これらの統計的・疫学的背景を理解することが重要ということです。

そして、グラント獲得できる・する、ということは、研究をやっていく上で本質的に重要なことです。preliminary resultsのp値は、グラントのreviewerにはわかりやすい表現です。より信頼性が高いと考えられる方法に例えばベイズ統計があり、ある製薬会社では全てベイズ統計で判断されているらしいです(ハーバードのある統計学教授いわく)。ただ、ベイズ統計を使ってもグラントのreviewerの誰にも理解されません。reviewerにも配慮した論文・グラント執筆も、重要な研究者のスキルです。

結論

p値とは、「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の事をいいます。そしてp値がいくら低くとも、effect sizeの差は関係ありません。

これを理解し、論文の批評や自分の研究に活かしましょう。

ではまた。

※「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の「以上の」を付け足しました(2019/1/3)。

前向き研究と後ろ向き研究を、ほとんどの人が定義できていない

「前向き研究」は良い、「後ろ向き研究」は悪い。ランダム化試験は前向き研究。ではコホート研究は全部後ろ向き研究なの?違います。「前向き研究をやります!」と宣言してからやる研究が前向き研究なの?どう宣言を定義するの?
こういう基本的な疑問に、きちんと答えられる人は、実はそんなにいません。経験上、かなりの医学研究者(特に医者)が、コホート研究=後ろ向き研究、と考えています。が、だったら「前向き」「後ろ向き」を定義する必要が無いわけです。

この記事では、ハーバードで定義している「前向き研究」「後ろ向き研究」を紹介します。この記事を読めば、例えば誰かに「それは後ろ向きだ!」と突っ込まれても、「研究デザインは前向きです」と自信を持って答えられるようになります。

前向き研究と後ろ向き研究を、ほとんどの人が定義できていない

前向き研究と後ろ向き研究を、ほとんどの人が定義できていない

この記事を書く理由の一つに、私の昔経験した苦い経験があります。

ある臨床研究(病院のデータを使ったコホート研究)を国際誌にsubmitして、reviseとなりました。reviewerのコメントの一つに、「この研究は後ろ向きのように感じられる」というものがありました。私はmanuscriptに「前向き研究」と書いていて、実際前向きだったのですが(以下参照)、このときは前向きか後ろ向きか定義に自信がなく、「研究デザインは前向きだが、後ろ向きの解析かと聞かれれば後ろ向きだ」と(一見意味不明な)返答をしてしまいました。するとそのreviewerは「前向きか後ろ向きか、変更することは許されない」とコメントし、Editorの判断でrejectとなってしまいました。。

確かにstudy designを嘘ついて論文を書くことは、断じて許されません。ただ、返答も含め嘘はついていませんし、実際正しい表現でした。「study designは前向きだ」とも明記していました。この時点で私がきちんとそれらを定義できず、reviewerにわかるようはっきり説明・主張できないことが原因でした

けれど、そもそも「前向き研究」「後ろ向き研究」がしっかりと定義できていれば、manuscriptを読めば前向きだと分かるわけです。だからその点を質問すること自体がおかしいし、記載を変えるよう誘導するような質問をしてrejectの判断することはナンセンスです。Editorもreviewerも、「前向き研究」が定義できていなかったわけです。

明らかな前向き研究(ランダム化試験など)だったら問題ありません。コホート研究が問題です(疫学研究手法に関してはこちら)。前向きコホート研究と後ろ向きコホートは何が違うのでしょう?

前向きコホート研究と後ろ向きコホート研究の違い

前向きコホート研究と後ろ向きコホート研究の違い

ハーバードでは次のように定義します。「Exposureの測定がOutcomeの測定より前なら前向き研究、後なら後ろ向き研究」。どういうことでしょう?

そもそも、ほとんどの臨床研究・疫学研究は、「〇〇により☓☓が起こるか」という因果関係を追求したいがためのものです。例えば、「心不全患者に対し、スタチンで脳卒中を予防できるか」という研究において、Exposureはスタチン、Outcomeは脳卒中です。「ICUでの低K血症は高い院内死亡率を予測するか」というのも「因果推論」の一つと考えます。この場合、Exposureは低Na血症、Outcomeは院内死亡です。私の研究は、「MRIを取った患者の中で、あるMRI所見がその後のイベントと関連するか」という研究でした。よって、ExposureはMRI所見、Outcomeはイベントです。

明らかに、MRIはイベント発生前に測定されています。測定された画像の解析は、ここでは関係ありません(outcomeがわからない状態で解析すればOKです)。よって、私の研究は前向きコホート研究なのです。より正確に言えば、Study designは前向きだ、ということです。前向きか後ろ向きかは、Study Designの事を言っています。

後ろ向きコホートは、例えばこんな研究です。「ある工場で最近喘息になっている人が多い。何が原因なのだろう。」この場合、Outcomeが測定されている集団の中で、新たにExposure(例えばある化学物質の室内濃度)を定義し、その関連性をみます。よって後ろ向きです。

この研究はどちら向き?

この研究はどちら向き?

狭心症で心臓カテーテル検査を行った患者の血液検体で、あるバイオマーカーを測っておきます。ある程度人数が増えた時点で、予後のデータを取り、そのバイオマーカーと予後の関係を調べました。これはどちら向きのコホート研究でしょうか?

答えは「前向き」です。なぜなら、そのバイオマーカーを測定している(Exposureの測定)がOutcomeの測定より前だからです。

臨床経験から、狭心症患者において、1年越しのあるバイオマーカー(クレアチニン)の変化量が、その後の予後と関連するだろうと予想し、研究をすることにしました。しかし狭心症患者で、クレアチニンを1年越しに測っている人は限定されます。これはどちら向きのコホート研究でしょうか?

答えは「後ろ向き」です。なぜなら、Exposure(1年越しのバイオマーカーの変化量)の測定が、Outcomeの測定より後だからです。

CTのレジストリー研究は全部前向きでしょうか?

そうです、全部「前向き」です。なぜなら、CTの何らかのパラメーターをExposureとし、様々なOutcomeをみるため、Exposureの測定がOutcomeの測定の前だからです。

その研究が登録されているかはどう考える?

疫学・臨床研究はなんであれ、倫理委員会を通さないとだめです。これは前向き研究か、後ろ向き研究かとは関係ありません。

それとは別に、研究をUMINClinicalTrials.govに登録することは、かなりメジャーになってきています。これに登録していることと「前向き」「後ろ向き」はどう関連するのでしょうか?

実はそこまで関係ありません。データ収集前に登録していれば「前向き」であることを意味しますが、登録していなくとも「後ろ向き」であることを意味するわけではありません。登録していればどうこうというわけではなく、「Exposureの測定がOutcomeの測定の前か後かが定義です。ただ、同じ前向きコホート研究でも、ClinicalTrials.govに登録されていれば、信頼性と質が高いと評価される、という違いはあります。

なぜそう定義する?

なぜそう定義する?

前向きは質が高く、後ろ向きは質が低いです。なぜなら、後ろ向き研究は、Outcomeが測定された後でExposureを測定するため、selection biasが生じるからです。分かりやすく言うと、Outcomeの有無に応じてExposureが変わってしまう場合を、後ろ向き研究というわけです。

クレアチニンの1年の変化量と予後の関係を調べた研究を考えましょう。その臨床医は、クレアチニンが1年間で上がる人は予後が悪い、という経験を基に研究をデザインしています。しかし、クレアチニンを1年越しに測っている人は限定されます。しかしデザイン上そういう人しかincludeされないので、selection biasが生じるということです。

私の研究(MRI所見と予後の関係)を考えましょう。そもそもMRIを取っている人しかincludeされず、outcomeに応じてExposureである画像が変わるわけはありません。なので、前向き研究です。

ちなみにもちろん、Outcomeがわかる状況で、MRI画像を解析しては、バイアスが生じます。これはそもそも研究として成り立ちません。画像解析がExposureの場合、Outcomeの情報がわからない環境(コアラボともいいます)での解析が望ましく、そうであれば研究の信頼性が高くなります。

結論

Exposureの測定がOutcomeの測定より前なら前向き研究、後なら後ろ向き研究(デザイン)です。

コホート研究=後ろ向き、と信じている臨床医は多いです。彼らが間違っています。こういう概念は疫学であり、疫学のトレーニングを受けている臨床医は少ないのが現状です。自信を持って、前向き、後ろ向きを言いましょう。

ではまた。