p値について絶対知っておくべき事【解釈】

研究をする方は、p値(p value)とはよく向き合うと思います。p<0.05なら差がある、p≥0.05なら差がない。だいたい差を証明したいので、「p<0.05、よっしゃー!」という感じだと思います。

一方、「p値だけみるのは駄目だ!」という偉い人の意見も聞いたことがあるかもしれません。

あなたはきちんとp値の意味を解釈できますか?

この記事を読むことで、p値の正しい解釈と考え方を具体的に理解することができます。

 

*簡略のため、この記事ではone-sidedとtwo-sidedについては無視します。そして、使用している統計モデルが正しくバイアスが無い前提です。

 

 

p値の解釈とは?

p値とは?

 

Question: 30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と言えるでしょうか?

**********

こういう疑問に答えるのがp値。クラスメンバーそれぞれの握力データがあると、統計ソフトで簡単にp値を計算できます。p値<0.05だと、「握力はクラスBの方がクラスAより高い、と言える!」と結論している人がほとんどだと思います。

しかし!!これではp値の本質が理解できません。

 

正確には、

真実は ‘クラスAとクラスBの握力が同じである’ としたら、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率がp値なのです。

p=0.03であれば、「こんなにクラス間で差があるのに、実はクラス間の握力が同じ確率は3%だ」ということです。

 

*この例だと想像しにくいですが、臨床研究では例えば「スタチン投与群とプラセボ投与群の予後比較」です。

なので、その研究で認められた違いが、より一般的なpopulation(同じような他の患者)にも同様なことが言えるか、ということが主題となるわけです。

p=0.03であれば、他の(同じような)患者にとっても、「本当は予後が変わらないのに、この研究で認められた程以上の予後の差がある確率」は3%ということです。

 

 

α=0.05とは?

αとはp値のカットオフのことです。

α=0.05の場合、「真実は ‘クラスAとクラスBの握力が同じである’ 時に、握力がクラスAとクラスBでこれほどの違い(平均5kg以上の差)が認められる確率」が5%未満であれば、その5%は無視するに足ると考える、ということです。

その場合「‘クラスAとクラスBの握力が同じである’という事が真実だとは考えにくい」と考えて「真実は‘クラスAとクラスBの握力が異なる’」と考える、という意味です。

(回りくどい表現になってしまいました....笑)

 

簡単に言うと、「本当はクラスA=クラスBなのに、クラスA≠クラスBと今結論してしまっている確率」がp値。

p<αであれば、その確率は無視できると考え、「クラスA≠クラスB」と結論する、いうことです。

 

✔p値をαとして解釈してはいけません

・つまり、p=0.02だったから、「本当は真実なのに誤って有意でないとしてしまう確率=2%」というのは間違っています。

→αは、研究の前に決めておくものです。αは「仮説検定」という実践的な解釈ができます

→pの解釈は一つ。上の通りです。

*これがはっきり区別できている方は少なく、これがわかるとBayes統計という理解につながってきます。

 

 

α=0.05が妥当か?:批判的意見

0.05をp値のカットオフとしてしまうと、いくつか問題があります。

この問題は、例えばStanford大学の疫学グループのヘッド、John Ioannidisという教授が、権威ある医学雑誌で繰り返し主張しています(Eur Heart J. 2019;40(31):2553–2554., Eur Heart J. 2019;40(31):2555–2556.等)。

 

******

✔一番大きな問題は、臨床医がp値しかみないという事です。

 →「差がある」といっても、薬が20%リスクを下げるか5%リスクを下げるかは大きな違いがあります

 →しかし特にランダム化試験において、「p<0.05なら薬は効く」という結論しか注目されない、というのが問題です。

 

✔p値しか見ない医師のreviewerは、p<0.05の論文しか採択しません。コホート研究においては(実はランダム化試験もですが)解析やデザインをこねくりまわせば、ある程度恣意的にp値が出てしまいます。

 →よって、恣意的に出したp値の論文しかpublishされない、という問題が生まれます。

 

✔また、解析やデザインが正しくても5%の結果(論文)は真実と異なります

 →つまり、本当は差がないのにあるとする論文が多すぎる、という主張があります。

 

✔そして最後に、「プラクティスを変えない、存在意義のない論文が多すぎる」という問題点です。

 →α=0.05だと、誰でも論文が書けてしまい、世の中に論文が氾濫しているのは間違いありませんし、そのほとんどがはっきり言ってpracticalに存在意義がありません(scienceに寄与する、と言えば何だってしますが、実質的に世の中へのインパクトはありません)。

 →グラントが世界的に縮小している現在、不必要な研究はカットすべきです。

 

全て正しい批判です。John Ioannidisらはこれらを定量的に解析し、「α=0.05は妥当でない。α=0.005(や0.001)というカットオフが妥当だ」と主張します。

Table 1からp値が消えた経緯もこれに準ずるでしょう。

 

 

大事なポイント

もともとは「今後α=0.005となるかは、おそらく本質的な議論ではありません」とここに書いていましたが、理論的背景を知っていくにつれ、考え方が変わってきました。

本質的な事は、「p値がどういう意味合いなのか」を理解することにあります

 

最近のimpactの大きい研究は、p値を全く載せてないものも多数あります(N Engl J Med. 2019;380(1):23–32.等)。これは、最近の「p値は駄目だ!」という風潮に合わせたフォーマットですが、実際の解析は95%信頼区間の解釈が入っており、それはp値と関連するものです(信頼区間に関しては追って説明します)。

つまり、フォーマットはいかんとして、これらの統計的・疫学的背景を理解することが重要ということです。

 

おそらく、p<0.05をカットオフとして支持する人は、「p値の解釈=type 1 error rate、つまりαの解釈」としている人だと思います。

でも違います。

この理解が大事です。

 

p値は、「(対立仮説と比較し)どの程度帰無仮説が支持されるか」ということを定量化して(○%として)示しません。

 →つまりαの値として解釈できないということ

p値が0.001 ~ 0.05の場合、p値が与える印象は「どの程度帰無仮説が支持されるか」と比較し過大である

ということが、(なんと)理論的に示せるのです。

 

これらの議論に興味ある方、「p値を極める」シリーズを御覧ください。

 

 

結論

p値とは、「本当は差がないのに、この研究で認められた程以上の差が出てしまう確率」で、それ以上でも以下でもありません。

α:本当は真なのに誤って有意でないとしてしまう確率、とは異なります。

これを理解し、論文の批評や自分の研究に活かしましょう。

そしてBayes統計につなげましょう。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2021 All Rights Reserved Powered by AFFINGER5.