Table 1でp値を書くべきか書かないべきか【実践的な考え方】

疫学研究・臨床研究の論文のTable 1。

患者背景がまとめられる表です。

このTable 1、最近「p値を表示していないもの」をよく見ませんか?

でもp値があったほうがわかり易くないですか??

このTable 1でp値を書くべきか問題について、この記事で解説しました。

 

 

Table 1でp値がない?!

Table 1でp値がない?!

疫学研究・臨床研究の論文でTable 1とはその集団の特徴を表すものです。

多くは2群又は3群の比較がメインテーマであり、それぞれの特徴を対比するように情報をまとめます。

比較というと検定→p値で表現され得ますね。

実際、多くの論文でTable 1にp値を見ます。

 

Table 1のp値。これは結構見やすいです。

年齢はp=0.80、群間に差はなし。

性別はp=0.10、男性の割合にちょっと差はあるが、有意差はなし。

高血圧罹患はp=0.01、治療群に多い。

など。

 

でも最近の論文(特にトップジャーナル)ではTable 1にp値をみません

Editorial policyでp valueを表示しないことになっています。

治療群とコントロール群の、年齢の平均±SDのみ書いてあり、そのt検定の結果は書いてありません。

ちょっと見にくいかと思うかもしれません。。。

 

なぜp値が表示されなくなったのでしょうか。

 

 

p値の解釈を見直そう

年齢がコントロールで平均60歳、治療群で64歳、p値が0.03だったとします。

 

この意味は「真実はこの2群で年齢に差がないのにも関わらず、これほどの(平均4歳以上の)差が出てしまう確率が3%だ」ということです。

→3%は低いので、差はあると言えるだろうということです。

*p値の解釈についてはこちら

 

ただしこれは「年齢に差があるか」ということのみに注目した場合の統計検定であり、、

たくさんp値が並んでいるとちょっと意味合いが異なってきます。。。。

 

 

Multiple testingが問題である

pが0.05未満か以上かだけで差を判断することを、ネイマン・ピアソンの仮説検定といいます。

これはわかりやすく、臨床医に好まれています。

わかりやすい反面、p値の解釈を無視してしまいます

 

ネイマン・ピアソンの仮説検定は1回の検定であれば問題は少ないのですが、複数回やると問題となります。

Multiple testingといわれます。

 

5回検定したら・・・?

1回も間違った結論を出さない確率は、0.95の5乗=0.77、77%となります。

Table 1にp値は15回くらい出てくるでしょうか。

これが問題となるのです。

*multiple testingについてはこちらで詳細を

 

実際、2群に差がないだろう大規模ランダム化研究でも、Table 1には少なくとも1回くらいp<0.05の項目が出てくるはずです。

当然ですね。

Table 1にp値は15回くらい出てくるなら、1回も間違った結論を出さない(母集団に差がない)確率=全てp>0.05である確率は、0.95の15乗=0.46、46%なのです。

 

*******

 

このmultiple testing、根本的な問題なのに、臨床研究では非常に軽視される傾向にあります。

そもそも「p<0.05で差があるなしを評価する」という仮設検定の枠組みが極端すぎます。

p値は非常に限られた箇所でしか使われるべきでない

のです。

 

例えば

primary outcomeの解析結果にしか使わない

など。

 

 

p値だけで差を判断しないでくれ

p値が0.05未満か以上かだけで差を判断しないでください

そうする人が多いから、Table 1にp値が掲載されていません。

 

p値も大事ですが、平均や中央値の差も(の方が)とても重要です

pがいくら低かろうと、差が大した事なければ、実質ほとんど意味ありませんね。

 

*例えば2群間の血圧の差を考えます。

・平均の差が5mmHgでもSEが小さければp<0.05になるし

・平均の差が20mmHgでもSEが大きければp>0.05です。

「バランス」という意味でどちらが問題かといったら後者でしょう。

 

NEJMなどはp値を掲載しないようなeditorial policyですが、特に臨床医向けの医学誌の場合、p値を書かないことはmisleadingを防ぐために必要かもしれません。

 

 

研究デザインごとに考えてみよう

基本を抑えた所で、RCTと観察研究にわけて、Table 1のp値の意味を考えてみましょう。

結論は

どちらも必要ない

です。

 

*なお観察研究 vs RCTのoverviewについてはこちらの記事参照

 

 

RCTの場合

そもそもなぜランダム化するかといえば、baselineの情報を揃えるためです。

それをどうチェックするかといったら、直接的な方法はTable 1です。

 

理想的なランダム化試験であれば(nが十分多いなど)、Table 1を見ずともバランスは整っているはず。

この場合、Table 1にp値がたくさんあったら、p値の分布はどうなるのでしょう?

👇

答えは「一様分布」になります

pが何の数値を取るのかがランダム、ということ。

 

だからp<0.05になる確率は5%程度ということ。

そしたら、そもそもp値をみる理由とは???

となってしまいますね。

 

*******

 

*baselineが揃っていることがmain analysisで重要なのは言うまでもありません。

実際、RCTでもmain analysisで交絡因子を調整することがあります。

しかしそれはTable 1を見た後で決定するのはNGです!!

→なぜならp-hackingにつながるから。

 

質の担保された RCTでは基本ですが、analysis planを前もって決めておきます

もしunbalanceによる影響が懸念される因子があれば、pre-blockingが推奨されます。

 

*pre-blocking

例えば性別は絶対にbalanceしたいとします。

そしたら、

男性の中でランダム化 / 女性の中でランダム化

を行えばよい、という話です。

 

 

観察研究の場合

ランダム化していないのでunbalancedになるのは言うまでもありません。

そしたらp値を書く意味とは?

→「p値」という観点で、どんな因子がunbalancedなのかはわかりやすいですね。

*「p値」という観点で、ということは意識してください(前述の通り)

 

この情報がその研究でどう活かされるか。

メインの解析で交絡因子として調整する

と言うことが思い当たりますが、そもそも調整する因子は統計結果を元に選んではいけないのでした!!!

詳細はこちら

 

なので、Table 1にp値を書く意味はなしです。

 

 

Table 1の情報のsummaryになる?

Table 1にはたくさんの数字があって、見るのが大変です。

そんな時p値があるとわかりやすい、という主張もあります。

つまりp値が低い所を特に注目する、というもの。

 

これは前述の通り、研究論文(=科学的に正しい方法で仮設を検証する)としての姿勢にはそぐいません。

が、個人的にはreadabilityが重要なのは確かにそうだと思います。

特にブログやってますから

 

***********

 

ここから個人的見解ですが、

readabilityという観点からも、Table 1 が2群間の比較である場合はお勧めしません。

だって比較するのは容易いから。

 

ただ、例えば4群の比較だったら、ちょっと見づらいし、値をみて直感的に差を解釈することは普通できないと思います。

そんな時は、科学的妥当性は置いておいて、p値を記載するのはありだと思います。

 

 

まとめ

p値はTable 1に書くのは科学的に妥当とは言えない。

個人的見解ですが、readabilityの観点から、群数が多い場合に書くのはありかもしれない。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2021 All Rights Reserved Powered by AFFINGER5.