ランダム化試験ではPower分析=サンプルサイズの計算は必須ですが、観察研究では「必要ない」という主張をよく聞きます。
本当に「サンプルサイズはどうでもよい」のでしょうか。
最新の論文を元に、疫学者のスタンスを紹介します。
Contents
観察研究にサンプルサイズの計算は必要ない!?
有名人、ハーバード疫学教授のMiguel Hernanが最近sensationalなtitleの論文を発表し、界隈で話題になりました。
Causal analyses of existing databases: no power calculations required(Journal of Clinical Epidemiology 2021)
このCommentaryは
「Powerが足りない=サンプルサイズが不十分だ、という理由で(重要なトピックの)観察研究を却下すべきでない」
という主張です。
彼の主張がどのようなものか理解していないと、ややmisleadingともなりうる論文だと思っています。
この論文を元に、観察研究のpower分析について考えていきます。
Miguelの主張:
例えば、非常に稀なCOVIDワクチンの副作用を調べたいとします。
知りたい因果関係:
Exposure: COVIDワクチン接種
Outcome: 重篤な血栓症
✅これが100万人に1人の副作用だとしたら、500万人の研究でその因果効果を推定できるか?
おそらくNoですよね。
解析すると、かなり広い信頼区間となります。
✅でもその研究が行われないべきか、と聞かれたら、それもNoです。
なぜなら、そういうunder-poweredな研究をメタ解析することで、よりvalidで意味のある信頼区間·因果効果を推定できるからです。
このように、
「サンプルサイズが小さいからと言って研究を却下すべいでない」
という主張に至ります。
*なお正確にはpowerでなくprecision(信頼区間の狭さ)にこだわるべきだと主張しています。
前提:観察研究のメタ解析は真実の因果効果に近づく
この主張の前提として、
✅観察研究一つではそれほど意味ある因果関係は推定できない
✅観察研究をメタ解析することで真の因果効果に近いものを推定できる
というものがあります。
これを理解することが、観察研究について考える上で重要となります。
それぞれ解説していきます。
観察研究一つではそれほど意味ある因果関係は推定できない
観察研究というのは(ランダム化試験と比較し)非常にassumptionが多く不確実な研究手法です。
観察研究で因果関係をいうには、
・residual confoundingがない
・selection biasがない
・measurement errorがない
・model misspecificationがない
という4つの重要なassumptionを前提とする必要があり、これが成り立つことはあり得ません(詳細こちら)。
よって、観察研究一つで因果推論することは不可能です。
*なお、ランダム化試験でも因果推論することは難しく、「理想的なランダム化試験」によってのみ可能です。なお、そのうち一つの条件は「無数に近いサンプルサイズ」です。
観察研究をメタ解析することで真の因果効果に近いものを推定できる
2014年のCochrane reviewです(Cochrane Database Syst Rev. 2014;2014(4):MR000034.)
・RCTのメタ解析と観察研究のメタ解析の結果の違いを検証した15論文を対象としています
・観察研究とRCTのメタ解析の結果にはほとんど違いがありませんでした:4%ほど
・ただしこの解析のheterogeneityが高かったです(I2=68%)
・交絡因子の調整方法による違いは認められませんでした
おそらく解釈としては、
✅観察研究に関連するいろいろなバイアスが、メタ解析を行うことで相殺される
✅つまり因果効果を推定するには、多くの観察研究が必要
✅しかしpublication biasがないという前提
ということになります。
Miguelの主張と一致しますね。
*当然ながら、観察研究で推定する因果効果は、RCTで推定するものと比較し不安定です。assumptionが多いので。
注意:観察研究に適した研究トピックはかなり限定的
ただこのMiguelの主張を「どんどん観察研究やれ!!」というメッセージとして捉えることは禁です。
実は真逆なのです。。。
彼のcausal inference bookで主張しているのは:
Causal inference less casual
(もっとちゃんと因果推論やれ)
というメッセージです。
特に医学雑誌の観察研究は質が非常に低いことが多く、それに対しMiguelを含め疫学の多くの専門家は問題視しています。
Miguelの上の主張を「観察研究どんどんやれ」として解釈できないのは、Miguelが考える「観察研究に適したトピック」というのは非常に限定的だからです。
それは例えば
・薬の副作用:薬→稀な病気の因果関係
・ランダム化できないが介入の余地のあるexposure:喫煙や飲酒など
であり、ランダム化試験ができるexposureについては、彼は基本的に観察研究を推奨していません。
よって彼の主張は正しくはこうなります:
「観察研究に適したトピックの研究はサンプルサイズを元に却下されるべきではない」
*********
ここからは私見です:
観察研究の意義は「コストや時間がかからない」ところにあります。
ここに、ランダム化試験ができるトピックであっても観察研究する意義はありそうなものですが··
・観察研究の質が概して低すぎて参考にならない
・観察研究の結果で医学のガイドライン(治療するかしないか)が影響されることはほぼない
という根本的な問題があります。
そもそも質の低い観察研究が乱立しているのは、それがauthorの業績になるからであり、その研究にそれ以上の意味を持たない場合がほとんどです。
(自分やMiguelもそういう研究やってきましたが)
こういった研究が行われること、publishされることは公衆衛生的に意味なく、制限されるべきです。
Miguelはハーバードで教鞭を取ることで「質の高い研究を広める」ことを命題にしており、最近target trial emulationというframeworkを考えていることなどはそれに一致します。
一方Stanfordのioannidisのように、正面切って「意味ない研究をやるのをやめろ」と主張する科学者もいます。
疫学者、特にmethodの専門家にとっては、あまりに質の低い論文がいくつも(有名なJournalに)publishされることは耐え難い事象なのです。
*p値で判断する風潮はそのまさに典型です(詳細こちら)
結論
観察研究にサンプルサイズの計算は必要ない。
より真実に近い因果効果を推定するには、たくさんの観察研究が必要。
しかし観察研究の対象とすべきトピックはかなり限られている。
特に医学分野では質の低い観察研究が横行しており、これを抑制することは非常に重要な課題。
ではまた。