MLE、統計モデルではしょっちゅう出てきます。
この理論的背景を知ることで、統計ソフトが何やっているのか、わかります。
この記事の対象は、研究で「モデルを作ってただ結果を見る」レベルから一歩踏み出したい方。
とても大事な基礎です。
Maximum Likelihood Estimationについておさらい
今、データをもっていますね。
でもそのデータはPopulationを示していません。
Populationのサンプルを示しています。
これがコンセプト。
100人分のデータがあり、30人が高血圧だったとします。
そしたら大元のpopulationでは、高血圧はどのように分布しているのか??
直感的には3割が高血圧であることを示していそうですが、信頼区間は???
これを求める統計的手法が、Maximum likelihood estimation, MLEなわけです。
********
高血圧があるかないか。
確率pで「あり」、1-pで「ない」、という分布に従うと仮定します。
*ベルヌーイ分布といいます。
この場合、あなたのデータがサンプルされる確率は??
患者1は高血圧なので、その確率はp。
患者2は高血圧でないので、その確率は1-p。
・・・・・
というわけで、その確率は
p30*(1-p)70
です。
でも私達はpが何かを知らない!!
つまりこのp30*(1-p)70を、0~1の間のpの関数として扱う!!!
そして、その確率が最も大きくなる時のpを、もっともらしいpとする!!!!
これがMLEの概念なわけです。
*******
その計算式がなりたつ非常に大事な要件として、
iid
というものがあります。
なに?
independently identically distributed
です。
つまり、それぞれの人が高血圧である確率が、他の人の確率と独立で、かつ同じ割合である
という意味です。
*ちなみに用語ですが、
・Estimator:そのもっともらしいp
・Estimate:もっともらしいpの値を上の式に当てはめた時の結果
と言います。
MLEを計算する・・・logと微分。。
だから知りたいことは、
p30*(1-p)70が、なんのpでmaxになるか。
・
・
そう、微分ですね。
でもこれ微分するの、ちょっとめんどいなあ。
*これ自体は簡単なんですが、その他ほとんどのやつは複雑になります。
そこで!
logをとります。
そしたら
30*log(p) + 70*log(1-p)
を微分するので、
30/p - 70/(1-p)
となり、これが0になるpを探せば良い。
*なぜなら、それより低い値では微分の式の値がプラスになり、それより高いとマイナスになるから。
よってp=0.3でした、というわけです。
おしまい。
******
まとめると、こうなります。
・母集団での分布を仮定して(あるパラメータを考える)
・今のデータが得られる確率の式をたてて、
・それが最大となるパラメータが何か、算出する
・算出方法は、その確率の式のlogをとったものを微分して求める
信頼区間は・・?
統計の話、難しいのは分散とか信頼区間ですよね。
わかります。
わかりますよ。
でもこの話、ちょっと面白いですよ。
だから、あとちょっとだけ、頑張りましょう。
******
そもそも分散ってなにか、って言ったら、
・データのバラバラ具合
・その一点だ!と言い切れない不確かさ
なわけですよね。
感覚的にいきましょう。
先程の「pが最大になる点」がどこか、「微分して0になる所」として計算しました。
でもそのまわりがどれだけシャープか。
つまり、微分して0.1になる点や、-0.1になる点が、どれだけ「微分して0になる所」に近いか。
もしそういう点が近ければ、「その一点だ!」と言い切れない気がしませんか?
そう、これこそ分散なのです。
じゃあ具体的に分散をどう評価したら良いか?
そのとおりです。
2回微分なのです!!!!
ここで一つポイント。
いま、pを0-1の間で動かしています。
真のpをPとしましょう。そして今のサンプルサイズをN。
すると微分の式は
NP/p – N(1-P)/(1-p)
2回微分の式は、
NP/p2 – N(1-P)/(1-p)2
このpにPを代入してご覧なさい。そうすれば、「真の確率P周りの加速度」を意味します。
計算すると、
n/P(1-P)
Wow!!
これが大きいほど、P周りの加速度が大きい
=P周りの変化が激しい
=「その一点」がはっきりする
=分散が少ない
というわけです。
だからこの逆数をとった、
P(1-P)/n
これを、「sampling distributionの分散」と言います。
その√、つまり
「sampling distributionのStandard deviation (SD)」
こそが
「pのStandard error (SE)」
と言われます。
*√内がマイナスのときは、マイナスを書けてからルートをとります。
0.3 ± 1.96 * √(0.3*0.7/100)
これこそが、
95%信頼区間!!!!!!!!
*これをWald confidence intervalと言います。
********
まとめると、
・分散とは、ある一点がはっきり定まる具合
・MLEを2回微分すれば、その一点周囲の加速度がわかる。
・その値が大きければ、はっきり定まる=分散が少ない
・よって、MLEの2回微分の逆数こそが(sampling distributionの)分散
・そのルートが求めたい変数のSEとなる
お疲れさまでした!
これでおしまいです。
MLEのエッセンスは。
・母集団での分布を仮定して今のデータが得られる確率の式をたてる
・それが最大となるパラメータが何か、log→微分で算出する
・2回微分したら加速度が求まるので、その逆数が分散
ではまた。