p値を極める-1【歴史編】

「帰無仮説が成り立つとした時に、今ある結果もしくはそれより極端な結果が認められる確率」がp値の定義です。

それがわかった上で、実践的にはどう解釈したらよいのか?

p値が表すことを理解するには、その歴史、帰納法/演繹法的な考え方、仮説検定との関連、likelihoodとの関連、Bayes統計、などを結びつける必要があります。

この記事ではこれらを説明し、「p値とは何か」について完全に理解することを目指します。

 

 

p値はFisherが開発した

p値はFisherが開発した

この記事はAmerican Journal of Epidemiologyの論文(AJE 1993;137:485)を参考にしています。

また、p値の統計的な解釈がわかっている事を前提とした内容です。

*不安な方はこの記事を先に読んで下さい。

 

********

ロナルド・フィッシャー(1890-1962)、Father of modern statisticsと呼ばれている人です。

彼は数学者でありながら、「数学の実践への応用」を非常に重視した人で、数学という抽象的な概念を使って実際のデータに何らかの結論を出す事を目指しました。

*彼は優生学者(=特定の人種は劣っており淘汰されるべき、という考え)でもありました。彼の功績は偉大ですが、一度も統計学の教授職(テニュア)を得ることはありませんでした。

 

ベイズの定理というものがありますが、これは検査前確率を検査後確率に変換するもの。

実際ほとんどの場合、検査前確率はわからないので、ベイズの定理は実践的でない(とFisherは思っていた)。

彼は「検査前確率の必要のない統計推論」に強い興味があり、結果p値を開発したのです。

*最初にp値を使ったわけではありませんが、fisherが初めてその論理的背景をはっきり確立しました。

 

 

Fisherのp値の定義

Fisherのp値の定義は今と同じです。

「帰無仮説が成り立つとした時に、今ある結果もしくはそれより極端な結果が認められる確率」

 

Fisherは常に実践への応用が念頭にありました。

彼はp値を「significance probability」と呼び、「p値が小さければ帰無仮説を棄却する」という考えに基づいていました。

 

なんだ、今のと同じじゃん

と思うかもしれませんが、実は少し違います!!

 

✔p値は、「同じ実験を繰り返した時、帰無仮説通りの観察とならない確率」という解釈が(現在)一般的になされますが、Fisherは「同じ実験を繰り返した時」というあり得ない前提は念頭にありませんでした

→彼は、「今この一回の観察結果に基づき、ある帰無仮説の信頼性を評価するもの」としてp値を考えていました。

 

✔p値は単独に用いられるべき指標とは考えていませんでした。

そして、「p値が小さい」というthresholdは、背景知識の基づくflexibleなものであるべき、という考え方でした。

→ただ、具体的にどうするべきか、はっきりと提示はしませんでした。

 

これがp値を開発した方のp値の解釈でした。

 

 

NeymanとPearsonの仮説検定

type 1 error, type 2 error, 対立仮説、という考え方は、Fisherは持ち合わせていませんでした。

これらを作り上げたのが、NeymanとPearson。

彼らは「仮説検定」という理論を打ち立てました。

これは次のようなもの。

 

*type 1 error rateとは、本当は帰無仮説が正しいのに、誤って「正しくない」と結論してしまう確率。

type 2 error rateとは、本当は帰無仮説が誤りなのに、誤って「正しい」と結論してしまう確率。

 

1) type 1 error rate = α、type 2 error rate = βを、研究毎に事前に設定する

(現在はほぼ常にα=0.05ですね)

2) この数値により「critical region」が定義される

3) 統計量がcritical regionに含まれたら、帰無仮説を棄却し対立仮説をacceptする

4) 統計量がcritical regionに含まれなければ、帰無仮説をacceptする

 

*事前にαを設定するという所がみそです。p値はαの閾値を超えるか超えないかだけで判断されます。

p値をαとして解釈するのは誤っています。これが超超重要!!!!!

 

ここで勘の良い方は、「帰無仮説はrejectされないだけでacceptはされないんでないの?」と思うかと思います。

その考え方は、(対立仮説という概念がない)Fisherの考え方なのです。

Neyman-Pearsonの仮説検定の枠組みでは、帰無仮説がacceptされます

 

 

Neyman-Pearsonの仮説検定は物事を単純化しすぎでは?

仮説検定のポイントは、p値や他の値がなんであれ、「帰無仮説と対立仮説のどちらかをacceptする」という結論のみが重要だ、という点にあります。

これは流石に単純化しすぎではないか?

実はNeymanとPearsonもそのことに気づいていました。

 

ここからは少し抽象的・哲学的な話になってきますが、それこそがp値を理解する上で重要なポイントです。

お付き合いください

 

******

NeymanとPearsonはこのように考えていました:

「ある仮説を前提とした時のデータの確率(= objective probability)だけを使おうと考えた時、その仮説が真実かどうかは、一回の研究では結論できない」

つまり、

「(そのデータを基にした)p値だけで、帰無仮説(あるいは対立仮説)が真実かはわからない」

ということを主張しているのです!!

仮説検定という枠組みを作っておきながら!!!!

 

じゃあp値や仮説検定は何なの???

彼らはこんな説明をしています:

統計的な推定(statistical estimation)は、「帰納的推論(inductive reasoning)」と言われている。

(帰納法を思い返してみると、「nで成り立つとしたときに、n+1でも成り立つことを証明すれば、それは真である」:これは統計推論に似ていますね)

でも、全ての推論は演繹的(deductive reasoning)であり、何らかの式につながるものだ。

(これは「推論」とは何か、という哲学的な主張です)

演繹的に求められた式を適応してその結果を享受する行為(=仮説検定の結果を真実と捉えること)は、「推論」ではなく「意思」によるものだ。

推論でないので、統計的な推定は「帰納的推論」でなく「帰納的行為(inductive behavior)」なのだ

 

意味わかったでしょうか?

噛み砕くと、仮説検定に基づいてある仮説=真実と捉えることは、学問的な考え方(reasoning)ではない、という主張です。

統計は勿論学問ですが、いろんなプロセスの結果、「仮説の真実の是非を判断する」というのはreasoningに基づくものでなく、人が勝手に判断するものだ、ということ

 

 

Fisherはムカついた

Fisherは怒り心頭でした。

だって彼は、実践的な応用をみこして、p値を学問的なものとして開発していたから

そのp値を使って「仮説検定」を開発した人が、「そんなの(学問的な)推論でなく人の行為に過ぎない」と言っているから。

「お前がやった仕事は学問でない」と言われていると受け取ったのかも

 

また、p値が仮説検定(yes/noの判断)に使われ、p値の意味がほぼどうでもよくなってしまうことを危惧していました

今やそのとおりになってしまっていますね・・・

 

 

****

以上、p値が開発された歴史でした。

次の記事では、更によりp値を深く考え、実践的に解釈できるようにしていきます。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.