p値を極める編、第2章です。
前回はp値を開発したFisherと、仮説検定を開発したNeyman-Pearsonの考え方の違いにfocusしました。
今回は、特に「αとp値の違い」「p値とlikelihoodの関連」を説明し、より実践的にp値を解釈することを目指します。
これが理解できれば、あなたもp値マスター!
(そしてBayes統計のスタート地点です)
Contents
p値とαの違い
p値は何らかの形でtype 1 errorの確率(type 1 error rate)=αを表すもの、と解釈されることが多いです。
*type 1 errorとは、「本当は帰無仮説が正しいのに、誤って棄却してしまう確率」ですね。
でもαとp値は同じなのか????
この違いをはっきり理解されている方は少なく、かつ極めて重要です。
ここではっきりさせましょう!
✔αとは何か。
帰無仮説に基づいた分布(例えば正規分布をイメージしてください)の、tailの部分です。
→例えばα=0.05であれば、「tailの面積=0.05となる領域」がαです。
大事なポイントは、今観察されたデータとは完全に無関係だということです。
=帰無仮説にのみ依存する分布だからです。
α、すなわちtype 1 error rateです。
✔pとは何か。
データから算出される値で、「帰無仮説に基づいた分布」の境界を示す所です。
例えばp=0.03であれば、「tailの面積=0.03の領域」の境界となる場所に観察されたデータがあることを示します。
つまりtype 1 error rate(tailの面積)という解釈は誤っています。
→p値は面積でなくポイントなのです!
******
具体例を考えるとわかりやすいです:
あるクラスでの成績を考えましょう。
トップX%に入っている生徒を「トップX%以内の成績」と表現するとします。
例えば、
A君はトップ10%だから「トップ10%以内の成績」
B君はトップ20%だから「トップ20%以内の成績」
逆に、この「トップX%以内の成績」という表現から、その生徒が実際にトップ何%なのかはわかりませんよね。
でも実はその生徒はトップX%にいるのですが。
p値というのは、そういうものです。
p値 = 0.10だったとします。
これをp≤0.10とすれば、それは10percentile 以下の面積を指すので、type 1 error rateという解釈ができます。
しかしp = 0.10というのはポイントなので面積は計算できません。
つまりp値 = 0.10をtype 1 error rateと解釈するのは誤りです。
p=0.05とp≤0.05
「p=0.05とp≤0.05の違い」というのが超重要ポイントです。
必ず抑えましょう。
p≤0.05の解釈は:
帰無仮説が真実だと仮定した時に、5%の頻度でしかおきない事象が観察されていること。
つまりαの解釈と同じです。
(もしαが事前に0.05と設定されていたら、ということ)
→なので、「P≤0.05か否か」という仮説検定をすることがOKとなります。
ではp=0.05は?
上と同じ解釈をしてしまっていませんか?
繰り返しますが、p=0.05は分布の面積を表さないので、type 1 error rateという解釈は誤りです。
「今」観察されている結果が、α=0.05のポイントにいるデータだ、ということ。
これをよりわかりやすく解釈するとどうなるか?
ここでLikelihoodさんに登場頂きましょう。
p値とLikelihood
Likelihoodというのは、
「ある元の分布を仮定した時に、今観察されているデータが観察される確率」
を表します。
*これは「その仮定した分布が真実である確率」とは全然異なるので注意
ここで、Likelihood ratioを
「帰無仮説でのLikelihood÷対立仮説でのLikelihood」
とすると、
その値は「真実がどれくらい(対立仮説でなく)帰無仮説である、ということを支持するか」を表しますね。
この図をみて考えてきましょう。
左が帰無仮説の分布、右が対立仮説の分布です。
実際得られたデータは一箇所、p=0.05の部分とします。
p≤0.05でのLikelihood ratioとは??
分子:帰無仮説の「0.05より先の部分」、つまり赤の部分
分母:対立仮説の「0.05より先の部分」、つまりH1の緑以外の部分
この面積の比となります。
p=0.05でのLikelihood ratioとは??
分子:Aというポイントの(yの)値
分母:Bというポイントの値
この比となります。
******
ほら、全然違いますよね。
論文では正規分布でsimulationしており、
・p≤0.05でのLikelihood ratio = 0.03
・p=0.05でのLikelihood ratio = 0.33
となりました。
p≤0.05と比較し、p=0.05の方が11倍強く帰無仮説を支持するということ!!
ベイズの定理を使うと、検査前確率が50%としたときに、
・p≤0.05での検査後確率 = 25%
・p=0.05での検査後確率 = 3%
となります。
*大きな差がありますが、pの値が0.001より低いときにはその差は大したことなくなります。
******
今でこそ、このようにクリアに違いを示すことができますが、それは「対立仮説」という概念あってのこと。
Fisherはp値を考案したものの「対立仮説」という概念がなかったので、彼は上のlikelihood ratioを近似する概念としてp値を考えていたものと考えられます。
なのでp値の解釈が曖昧であった。
Likelihood ratioこそが欲しい指標
どれくらい帰無仮説っぽいか(対立仮説っぽいか)というのは、p値は直接表さないことがわかりました。
ほしいのはlikelihood ratio。
でもこの値、対立仮説の分布によって変わっちゃいますよね。
一つ考案された方法は、「観測された結果を平均とする分布」を対立仮説とおく、という方法です。
これはstandardized likelihoodといわれます。
この方法では、
・p=0.05 → LR=6.7
となります。
帰無仮説である検査前確率が80%の場合、検査後確率は38%!!!
結構高い
p=0.003なら、検査前確率が80%の場合、検査後確率は5%となります。
このあたりに、p値のカットオフを下げるべし、という議論の理論的背景があるのです。
じゃあどうする??
実践応用するため、ポイントをまとめます。
Neyman-Pearsonの仮説検定の枠組み
✔事前にtype 1 error rate = αの値を設定することが味噌です
→p値がそれを上回るか下回るか、という結果が、type 1 error rateという解釈を可能にします。
→しかし、p値の実際の値、という情報をそぎ取ってしまいます。
・またこの枠組みでは、「p値がそれを上回るか下回るか、という結果を基に、帰無仮説が支持されるかどうかを判断する」行為は、科学的なものとして考えません。
(inductive behavior、なのでした:前回記事参照)
・注意点は、p=0.001の時にα=0.001としてtype 1 error rateとして解釈するのは明らかな誤り、ということです。
→なのでαを事前に決めておく必要があります
*ちなみに「p<0.05を有意とする」という論文での一文は何も表していません。完全に無意味な文章です。
p値を連続値として解釈したいとき
✔「どれくらい帰無仮説っぽいか」ということを数値化したいなら、likelihood ratioを念頭に置く必要がある。
・p=0.03だった時。
「もし本当は関連が無かったとして、今の事象もしくはより極端な事象が観察される確率は3%だ」
これ以上でも以下でもありません。
つまりは、結局何が言いたいかもわからない、ということです(1回しか今のデータは観測されないから)。
・p=0.03に対応するGaussian standardized likelihoodは0.10なので、より実践的な解釈は「何かしらの関連性があるという確率は、何も関連がないという確率と比較し、検査前確率の10倍高い」となります。
*ポイントは、現実的にp値を「〜の確率」として解釈することはできない、ということです。確率として解釈したいならlikelihoodを用いるしかな=Bayesian methodを使う必要がある、ということです。
結論
現実的なtake-home messageとしては、
・p値をαと混同してはいけない
・p値を仮説検定に用いる場合は、αを先に決め、p値がαより大きいか小さいかだけで判断する
・p値が0.001~0.05の時、それが与える印象は、実際のlikelihood ratioから算出される「確からしさ」より過大である
こんなところでしょう。
ではまた。