p値について私達が知っておくべき事

研究をする方は、p値(p value)とはよく向き合うと思います。p<0.05なら差がある、p≥0.05なら差がない。だいたい差を証明したいので、「p<0.05、よっしゃー!」という感じでしょうか。一方、「p値だけみるのは駄目だ!」という偉い人の意見も聞いたことがあるかもしれません。p値は簡便ですが、かなり誤解・誤用されている統計指標です。

この記事では、p値とは何か具体的に理解し、その上で最近のp値に関する論争・専門家の考え方を紹介します。この記事を読むことで、p値の正しい考え方と限界を具体的に理解することができます。簡略のため、この記事ではone-sidedとtwo-sidedについては無視します。そして、使用している統計モデルが正しくバイアスが無い前提です(別記事で説明します)。

p値とは?

p値とは?

30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と言えるでしょうか?

**********

こういう疑問に答えるのがp値。クラスメンバーそれぞれの握力データがあると、統計ソフトでp値を計算でき、p値<0.05だと、「握力はクラスBの方がクラスAより高い、と言える!」と結論している人がほとんどだと思います。が、これではp値の本質が理解できません。より正確に解釈してみましょう。「真実は ‘クラスAとクラスBの握力が同じである’ としたら、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率がp値なのです。p=0.03であれば、「こんなにクラス間で差があるのに、実はクラス間の握力が同じ確率は3%だ」ということです。

ちなみに、この例だと想像しにくいですが、臨床研究では例えば「スタチン投与群とプラセボ投与群の予後比較」です。なので、その研究で認められた違いが、より一般的なpopulation(同じような他の患者)にも同様なことが言えるか、ということが主題となるわけです。p=0.03であれば、他の(同じような)患者にとっても、「本当は予後が変わらないのに、この研究で認められた程以上の予後の差がある確率」は3%ということです。

「第一種過誤が起きる確率」なのですが、別に用語はどうでもよく、コンセプトが理解できていることが重要です。

α=0.05とは?

α=0.05とは?

αとはp値のカットオフのことで、α=0.05の場合、「真実は ‘クラスAとクラスBの握力が同じである’ 時に、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率」が5%未満であれば、その5%は無視するに足ると考えるということです。その場合「‘クラスAとクラスBの握力が同じである’という事が真実だとは考えにくい」と考えて「真実は‘クラスAとクラスBの握力が異なる’」と考える、という意味です(回りくどい表現になってしまいました)。

まとめると、「本当はクラスA=クラスBなのに、クラスA≠クラスBと今結論してしまっている確率」がp値。p<αであれば、その確率は無視できると考え、クラスA≠クラスBと結論する、いうことです。

α=0.05が妥当か論争:Stanfordの批判的意見

0.05をp値のカットオフとしてしまうと問題があります。この問題は、例えばStanford大学の疫学グループのヘッド、John Ioannidisという教授が、権威ある医学雑誌で繰り返し主張しています(Eur Heart J. 2019;40(31):2553–2554., Eur Heart J. 2019;40(31):2555–2556.等)。

******

一番大きな問題は、臨床医がp値しかみないという事です。「差がある」といっても、薬が20%リスクを下げるか5%リスクを下げるかは大きな違いがあります。が、特にランダム化試験において、「p<0.05なら薬は効く」という結論しか注目されない、というのが問題です。

p値しか見ない医師のreviewerは、p<0.05の論文しか採択しません。コホート研究においては(実はランダム化試験もですが)解析やデザインをこねくりまわせば、ある程度恣意的にp値が出てしまいます。よって、恣意的に出したp値の論文しかpublishされない、という問題が生まれます。

また、解析やデザインが正しくても5%の結果(論文)は真実と異なります。つまり、本当は差がないのにあるとする論文が多すぎる、という主張があります。

そして最後に、「プラクティスを変えない、存在意義のない論文が多すぎる」という問題点です。α=0.05だと、誰でも論文が書けてしまい、世の中に論文が氾濫しているのは間違いありませんし、そのほとんどがはっきり言ってpracticalに存在意義がありません(scienceに寄与するか、と言われれば何だってしますが、実質的に世の中へのインパクトはありません)。グラントが世界的に縮小している現在、不必要な研究はカットすべきです。

これらは正しい批判です。John Ioannidisは、これらを定量的に解析し、「α=0.05は妥当でない。α=0.005というカットオフが妥当だ」と主張します。

α=0.05が妥当か論争:Harvardの意見

一方、John Ioannidisの主張は、多くのハーバード疫学者には支持されていません。それは次の理由によります。

********

・John Ioannidisは自身でグラントを獲得したりPIとなってactiveに疫学研究をしていない。彼は研究者でなく、批判者だ。

そもそもp値は解釈可能なパラメタ―である。カットオフはそこまで重要でない。

治療の効果性は、effect sizeやp値など様々な要素を総合して考えるべき

これらも事実です。実際ハーバードの疫学研究では、effect size(握力の違いが15kgなのか5kgなのか)という事を、かなりしっかり考えています。p値の解釈も重要で、因果推論の様々な方法(outcome regression, propensity score, inverse probablity weightingなど)で感度分析をして、本当に差があるかしっかり確認します。

私はハーバードに所属しているので、こちらの意見を支持しています。あなたはどうでしょうか?

大事なポイント(私の意見)

大事なポイント(私の意見

今後α=0.005となるかは、おそらく本質的な議論ではありません。本質的な事は、「p値がどういう意味合いなのか」を理解することにあります。最近のimpactの大きい研究は、p値を全く載せてないものも多数あります(N Engl J Med. 2019;380(1):23–32.等)。これは、最近の「p値は駄目だ!」という風潮に合わせたフォーマットですが、実際の解析は95%信頼区間の解釈が入っており、それはp値と関連するものです(信頼区間に関しては追って説明します)。つまり、フォーマットはいかんとして、これらの統計的・疫学的背景を理解することが重要ということです。

そして、グラント獲得できる・する、ということは、研究をやっていく上で本質的に重要なことです。preliminary resultsのp値は、グラントのreviewerにはわかりやすい表現です。より信頼性が高いと考えられる方法に例えばベイズ統計があり、ある製薬会社では全てベイズ統計で判断されているらしいです(ハーバードのある統計学教授いわく)。ただ、ベイズ統計を使ってもグラントのreviewerの誰にも理解されません。reviewerにも配慮した論文・グラント執筆も、重要な研究者のスキルです。

結論

p値とは、「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の事をいいます。そしてp値がいくら低くとも、effect sizeの差は関係ありません。

これを理解し、論文の批評や自分の研究に活かしましょう。

ではまた。

※「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の「以上の」を付け足しました(2019/1/3)。