Maximum Likelihood Estimationについておさらい!

MLE、統計モデルではしょっちゅう出てきます。

この理論的背景を知ることで、統計ソフトが何やっているのか、わかります。

この記事の対象は、研究で「モデルを作ってただ結果を見る」レベルから一歩踏み出したい方。

とても大事な基礎です。

 

 

Maximum Likelihood Estimationについておさらい

Maximum Likelihood Estimationについておさらい

今、データをもっていますね。

でもそのデータはPopulationを示していません。

Populationのサンプルを示しています。

これがコンセプト。

 

100人分のデータがあり、30人が高血圧だったとします。

そしたら大元のpopulationでは、高血圧はどのように分布しているのか??

直感的には3割が高血圧であることを示していそうですが、信頼区間は???

これを求める統計的手法が、Maximum likelihood estimation, MLEなわけです。

 

 

********

高血圧があるかないか。

確率pで「あり」、1-pで「ない」、という分布に従うと仮定します。

*ベルヌーイ分布といいます。

 

この場合、あなたのデータがサンプルされる確率は??

患者1は高血圧なので、その確率はp。

患者2は高血圧でないので、その確率は1-p。

・・・・・

 

というわけで、その確率は

p30*(1-p)70

です。

 

でも私達はpが何かを知らない!!

つまりこのp30*(1-p)70を、0~1の間のpの関数として扱う!!!

そして、その確率が最も大きくなる時のpを、もっともらしいpとする!!!!

これがMLEの概念なわけです。

 

*******

その計算式がなりたつ非常に大事な要件として、

iid

というものがあります。

なに?

independently identically distributed

です。

つまり、それぞれの人が高血圧である確率が、他の人の確率と独立で、かつ同じ割合である

という意味です。

 

*ちなみに用語ですが、

・Estimator:そのもっともらしいp

・Estimate:もっともらしいpの値を上の式に当てはめた時の結果

と言います。

 

 

MLEを計算する・・・logと微分。。

だから知りたいことは、

p30*(1-p)70が、なんのpでmaxになるか。

そう、微分ですね。

 

でもこれ微分するの、ちょっとめんどいなあ。

*これ自体は簡単なんですが、その他ほとんどのやつは複雑になります。

 

そこで!

logをとります。

 

そしたら

30*log(p) + 70*log(1-p)

を微分するので、

30/p - 70/(1-p)

となり、これが0になるpを探せば良い

*なぜなら、それより低い値では微分の式の値がプラスになり、それより高いとマイナスになるから。

よってp=0.3でした、というわけです。

おしまい。

 

 

******

まとめると、こうなります。

・母集団での分布を仮定して(あるパラメータを考える)

・今のデータが得られる確率の式をたてて、

・それが最大となるパラメータが何か、算出する

・算出方法は、その確率の式のlogをとったものを微分して求める

 

 

信頼区間は・・?

統計の話、難しいのは分散とか信頼区間ですよね。

わかります。

わかりますよ。

でもこの話、ちょっと面白いですよ。

だから、あとちょっとだけ、頑張りましょう。

 

******

そもそも分散ってなにか、って言ったら、

・データのバラバラ具合

・その一点だ!と言い切れない不確かさ

なわけですよね。

 

感覚的にいきましょう。

先程の「pが最大になる点」がどこか、「微分して0になる所」として計算しました。

でもそのまわりがどれだけシャープか

つまり、微分して0.1になる点や、-0.1になる点が、どれだけ「微分して0になる所」に近いか。

もしそういう点が近ければ、「その一点だ!」と言い切れない気がしませんか?

そう、これこそ分散なのです。

 

じゃあ具体的に分散をどう評価したら良いか?

そのとおりです。

2回微分なのです!!!!

 

ここで一つポイント。

いま、pを0-1の間で動かしています。

真のpをPとしましょう。そして今のサンプルサイズをN。

すると微分の式は

NP/p – N(1-P)/(1-p)

2回微分の式は、

NP/p2 – N(1-P)/(1-p)2

このpにPを代入してご覧なさい。そうすれば、「真の確率P周りの加速度」を意味します。

計算すると、

n/P(1-P)

 

Wow!!

これが大きいほど、P周りの加速度が大きい

=P周りの変化が激しい

=「その一点」がはっきりする

=分散が少ない

というわけです。

 

だからこの逆数をとった、

P(1-P)/n

これを、「sampling distributionの分散」と言います。

その、つまり

「sampling distributionのStandard deviation (SD)」

こそが

「pのStandard error (SE)」

と言われます。

*√内がマイナスのときは、マイナスを書けてからルートをとります。

 

0.3 ± 1.96 * √(0.3*0.7/100)

これこそが、

95%信頼区間!!!!!!!!

 

*これをWald confidence intervalと言います。

 

 

********

まとめると、

・分散とは、ある一点がはっきり定まる具合

・MLEを2回微分すれば、その一点周囲の加速度がわかる。

・その値が大きければ、はっきり定まる=分散が少ない

・よって、MLEの2回微分の逆数こそが(sampling distributionの)分散

・そのルートが求めたい変数のSEとなる

 

 

お疲れさまでした!

これでおしまいです。

MLEのエッセンスは。

・母集団での分布を仮定して今のデータが得られる確率の式をたてる

・それが最大となるパラメータが何か、log→微分で算出する

・2回微分したら加速度が求まるので、その逆数が分散

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.