多重比較(multiple testing)は論文を書くだけでなく、読む際にも必ず知っておく必要があります。
疫学でかなり注意する事項ですが、臨床研究では残念ながらそうとも限りません。
この記事では、多重比較についてわかりやすく解説し、対応方法を紹介します。
具体的には、Bonferroni adjustmentとFDR(false discovery rate)がわかります。
多重比較が問題となる状況
統計検定って、よくやりますよね。
多くの人がみるのがp値。
これが0.05未満だと有意、そうでなければ有意でない。
このフレームワークこそ、多重比較が問題となる状況です。
例えば、死亡に関わる因子の検定で、こんな結果が出たとします。
年齢 p=0.045
性別 p=0.01
喫煙 p=0.009
飲酒 p=0.23
糖尿病 p=0.001
p=0.05未満が有意なので、
年齢と性別と喫煙と糖尿病が死亡に関連する
・・とはいきません。
なんででしょう?
統計検定は5%の間違いを許容する
p<0.05というのは、5%の確率で「本当は差がないのにあると結論してしまう」ことを許容しています(p値の解釈についてはこちら)。
5%が些細なものと考えているのです(議論の余地がありますが)。
でも上のモデル、5回も統計検定していますね。
5回も5%の誤差を許容してしまっています。
なので誤差がない確率は0.95の5乗、77%です。
23%の確率で間違っている、無視できませんよね。
何回も統計検定(比較)しているので、多重比較といいます。
英語ではmultiple testingとかmultiple comparisonとか言います。
よって、上のような結果で、p=0.05をカットオフとして考えてはいけません。
(これを意識しない医者が多すぎると思います。自分も昔はそうでした・・)
この対処法は必ず知っておきましょう。
対処法1:Bonferroni adjustment
簡単かつ歴史ある方法です。
単純にカットオフを、0.05/比較の回数、とします。
年齢 p=0.045
性別 p=0.01
喫煙 p=0.009
飲酒 p=0.23
糖尿病 p=0.001
この例だと5回比較しているので、カットオフはp=0.05/5=0.01。
有意なのは喫煙と糖尿病だけ、となります。
これでほとんどの場合問題ないです。
論文には、「そのTableにある比較の数で0.05を割り、それをカットオフだと明示」すればOKです。
p値はそのまま記載します。p値は解釈可能だからです。
→単純に0.04で有意にならないということ。
*念の為Bonferroniのlimitationをまとめておきます。
・Conservativeな結論になる:なぜなら比較それぞれが独立だという推定の下行うから
→有意でないからと言って差がないとは言えない:Type 2 errorが大きいということ
→特に沢山比較があるGWASなんかの場合は、色々大事なSNPを落としてしまっているかもしれません
もうちょっと有意なものを拾いたい。
いくつか代替がありますが、その中でもFDR (false discovery rate)がメジャーです。
対処法2:FDR
False discovery rateっていうくらいなので、解釈は次のようになります。
有意だが実は有意でない因子の数÷有意な因子の数
FDR=0.05をカットオフとすると、「20個の有意な結果のうち1個は本当は有意でない」ということになります。
p値からq値(FDRとも言われます)を計算し、0.05未満かをみます。
q値は、「比較の数✕p値÷p値のランク」が定義です。
実際に計算してみましょう。
まず、p値を小さい順に並べます。
糖尿病 p=0.001
喫煙 p=0.009
性別 p=0.01
年齢 p=0.045
飲酒 p=0.23
5回検定をしているので、全てに5をかけます(これをBonferroni p valueともいいます)。
糖尿病 Bonferroni p=0.005
喫煙 Bonferroni p =0.045
性別 Bonferroni p =0.05
年齢 Bonferroni p =0.225
飲酒 Bonferroni p =1.15
*厳密には、Bonferroni p valueは1以上のものを1とします。
そしてこれをそれぞれのランク(小さい順)で割ります。糖尿病はランク1なのでそのまま、喫煙はランク2なので2で割る・・等です。
糖尿病 q=0.005/1 = 0.005
喫煙 q =0.045/2 = 0.0225
性別 q =0.05/3 = 0.017
年齢 q=0.225/4 = 0.056
飲酒 q=1.15/5= 0.23
q値のカットオフがFDR。FDRはよく0.05を用いるので、FDRで有意なのは糖尿病、喫煙、性別となります。
Bonferroni adjustmentと比べて有意なのが一つ増えましたね。
FDRの方がConservativeでないのです。
FDRのlimitationは、20個に1個は間違った結論を出している、ということです。
type 1 errorが起きうるということを念頭に置いておきましょう。
簡単すぎない?
そんな難しくないですね。でも論文を書いたり読んだりする上で、これだけ知っておけば大丈夫です。
Multiple testingについては統計学としてはかなり深く、追求すると大変です。
興味ある方は是非理論から学ぶことをおすすめしますが、この記事内容くらい知っておけば、臨床研究・疫学研究では困りません。
そもそもmultiple testingという問題を知らない人が多すぎることが問題なのです。
結論
複数の統計検定をしていたらmultiple testingが問題となる。
補正法はBonferroni adjustmentとFDRを覚えておけばよい。
ではまた。