p値について絶対知っておくべき事【解釈】

研究をする方は、p値(p value)とはよく向き合うと思います。p<0.05なら差がある、p≥0.05なら差がない。だいたい差を証明したいので、「p<0.05、よっしゃー!」という感じだと思います。

一方、「p値だけみるのは駄目だ!」という偉い人の意見も聞いたことがあるかもしれません。

あなたはきちんとp値の意味を解釈できますか?

この記事では、p値とは何か具体的に理解し、その上で最近のp値に関する論争・専門家の考え方を紹介します。この記事を読むことで、p値の正しい解釈と考え方を具体的に理解することができます。

 

*簡略のため、この記事ではone-sidedとtwo-sidedについては無視します。そして、使用している統計モデルが正しくバイアスが無い前提です(別記事で説明します)。

 

 

p値の解釈とは?

p値とは?

 

Question: 30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と言えるでしょうか?

**********

こういう疑問に答えるのがp値。クラスメンバーそれぞれの握力データがあると、統計ソフトで簡単にp値を計算できます。p値<0.05だと、「握力はクラスBの方がクラスAより高い、と言える!」と結論している人がほとんどだと思います。

しかし!!これではp値の本質が理解できません。

正確には、

真実は ‘クラスAとクラスBの握力が同じである’ としたら、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率がp値なのです。

p=0.03であれば、「こんなにクラス間で差があるのに、実はクラス間の握力が同じ確率は3%だ」ということです。

 

*この例だと想像しにくいですが、臨床研究では例えば「スタチン投与群とプラセボ投与群の予後比較」です。

なので、その研究で認められた違いが、より一般的なpopulation(同じような他の患者)にも同様なことが言えるか、ということが主題となるわけです。

p=0.03であれば、他の(同じような)患者にとっても、「本当は予後が変わらないのに、この研究で認められた程以上の予後の差がある確率」は3%ということです。

「第一種過誤が起きる確率」なのですが、別に用語はどうでもよく、コンセプトが理解できていることが重要です。

 

 

α=0.05とは?

αとはp値のカットオフのことです。

α=0.05の場合、「真実は ‘クラスAとクラスBの握力が同じである’ 時に、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率」が5%未満であれば、その5%は無視するに足ると考える、ということです。

その場合「‘クラスAとクラスBの握力が同じである’という事が真実だとは考えにくい」と考えて「真実は‘クラスAとクラスBの握力が異なる’」と考える、という意味です。

(回りくどい表現になってしまいました....笑)

 

簡単に言うと、「本当はクラスA=クラスBなのに、クラスA≠クラスBと今結論してしまっている確率」がp値。

p<αであれば、その確率は無視できると考え、「クラスA≠クラスB」と結論する、いうことです。

 

α=0.05が妥当か?:Stanfordの批判的意見

0.05をp値のカットオフとしてしまうと、いくつか問題があります。

この問題は、例えばStanford大学の疫学グループのヘッド、John Ioannidisという教授が、権威ある医学雑誌で繰り返し主張しています(Eur Heart J. 2019;40(31):2553–2554., Eur Heart J. 2019;40(31):2555–2556.等)。

*Johnはcontrarian として有名人です

 

******

✔一番大きな問題は、臨床医がp値しかみないという事です。

 →「差がある」といっても、薬が20%リスクを下げるか5%リスクを下げるかは大きな違いがあります

 →しかし特にランダム化試験において、「p<0.05なら薬は効く」という結論しか注目されない、というのが問題です。

 

✔p値しか見ない医師のreviewerは、p<0.05の論文しか採択しません。コホート研究においては(実はランダム化試験もですが)解析やデザインをこねくりまわせば、ある程度恣意的にp値が出てしまいます。

 →よって、恣意的に出したp値の論文しかpublishされない、という問題が生まれます。

 

✔また、解析やデザインが正しくても5%の結果(論文)は真実と異なります

 →つまり、本当は差がないのにあるとする論文が多すぎる、という主張があります。

 

✔そして最後に、「プラクティスを変えない、存在意義のない論文が多すぎる」という問題点です。

 →α=0.05だと、誰でも論文が書けてしまい、世の中に論文が氾濫しているのは間違いありませんし、そのほとんどがはっきり言ってpracticalに存在意義がありません(scienceに寄与する、と言えば何だってしますが、実質的に世の中へのインパクトはありません)。

 →グラントが世界的に縮小している現在、不必要な研究はカットすべきです。

 

全て正しい批判です。John Ioannidisらはこれらを定量的に解析し、「α=0.05は妥当でない。α=0.005というカットオフが妥当だ」と主張します。

Table 1からp値が消えた経緯もこれに準ずるでしょう。

 

α=0.05が妥当か?:Harvardの意見

一方、John Ioannidisの主張は、多くのハーバード関連の疫学者には支持されていません。

それは次の理由によります。

 

********

そもそもp値は解釈可能なパラメタ―である。カットオフはそこまで重要でない。

治療の効果性は、effect sizeやp値など様々な要素を総合して考えるべき

 

そのとおり!実際ハーバードの疫学研究では、effect size(握力の違いが15kgなのか5kgなのか)という事を、かなりしっかり考えています。p値の解釈も重要で、因果推論の様々な方法(outcome regression, propensity score, inverse probablity weightingなど)で感度分析をして、本当に差があるかしっかり確認します。

私はこちらの意見を支持しています。あなたはどうでしょうか?

 

 

大事なポイント(私の意見)

今後α=0.005となるかは、おそらく本質的な議論ではありません。本質的な事は、「p値がどういう意味合いなのか」を理解することにあります

最近のimpactの大きい研究は、p値を全く載せてないものも多数あります(N Engl J Med. 2019;380(1):23–32.等)。これは、最近の「p値は駄目だ!」という風潮に合わせたフォーマットですが、実際の解析は95%信頼区間の解釈が入っており、それはp値と関連するものです(信頼区間に関しては追って説明します)。

つまり、フォーマットはいかんとして、これらの統計的・疫学的背景を理解することが重要ということです。

 

そして、グラント獲得できる・する、ということは、研究をやっていく上で本質的に重要なことです。

preliminary resultsのp値は、グラントのreviewerにはわかりやすい表現です。より信頼性が高いと考えられる方法に例えばベイズ統計があり、ある製薬会社では全てベイズ統計で判断されているらしいです(ハーバードのある統計学教授いわく)。ただ、ベイズ統計を使ってもほとんどのreviewerには理解されません。reviewerにも配慮した論文・グラント執筆も、重要な研究者のスキルと思われます。

 

 

結論

p値とは、「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」の事をいいます。そしてp値がいくら低くとも、effect sizeの差は関係ありません。

これを理解し、論文の批評や自分の研究に活かしましょう。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.