Applied researcherが大学院レベルの確率統計を勉強すべきか

こんにちは。今回は雑記みたいな内容です。

どの研究にも確率統計が絡んできますが、それらをどの程度勉強したら良いのか、悩まれる方も多いかと思います。

この記事では、疫学を一通り学んだ筆者が、大学院レベルの統計学を数ヶ月みっちり勉強してみて思った事をつらつら書いてみました。

皆様の勉強の参考になれば幸いです。

 

 

Applied researcherが大学院レベルの確率統計を勉強すべきか

Applied researcherが大学院レベルの確率統計を勉強すべきか

簡単に自己紹介ですが、私は臨床・臨床研究を6年くらい経験した後渡米し、疫学の修士を取り、1年間ポスドクをやり(MDもちなので)、疫学博士に入学して現在2年目です。

それなりの年数実際の研究に携わってから疫学の理論を学び、Qualifying examという筆記試験はpassし、現在訳あって大学院レベルの確率統計学を学んでいます。

 

研究する上では疫学の知識は必須と言えます。これなしでは「なんとなく」の論文になってしまいがちです。

一方、統計の知識も「統計モデル」を使う以上必須ですが、統計は当然(大学レベルの)数学が絡んでくるため、勉強するのに労力と時間がかかります。

気軽にコンサルトできる統計学者がいるラボであればそこまで研究上困ることはないかもしれませんが、そのような環境はまれです。

どこまで勉強したら良いか、悩んでる方は多いのでないでしょうか。

 

この記事では、

・大学院レベルの確率統計はどんな内容を学ぶのか

・それらは研究をする上でどれくらい必要なのか

について私見を書いてみました。

勉強の参考になれば幸いです。

 

 

大学院レベルの確率統計はどんな内容を学ぶのか

当校では、基礎的な授業として

・method

・probability

・algorithm

と分けられ、これらが必修科目です。

それぞれ紹介していきます。

 

Method

主に実際のapplicationを念頭においた授業で、いわゆる臨床研究の統計コンサルが担当するような事項です。

具体的には

・linear regressionから始まり、generalized linear modelsの原理、特徴、assumption、model fitの評価

・heteroscedastic data

・likelihood theoryの基本

・wald test, score test, likelihood ratio test

・resampling method

あたりです。

 

実際はこれが前編で、後には

・asymptotic theory

・M-estimation

・rank estimation

・U-statistics

・non-parametric regression

などが続いていきます。

 

これがわかると、実際の研究で「どんな統計モデルをつかうべきか、避けるべきか」ということがはっきりしてきます

 

これは疫学で学ぶ内容と結構オーバーラップがあります。

特に当校のカリキュラムでは「Population Health Science」の必修として、これらの基礎的事項を学んだ後だったので、前半はほとんど見覚えがありました。

ただ腰を据えてしっかり学び直すと漏れが少なくなったと思います。

 

Methodを学んで思ったことは、「統計methodを網羅的に授業で学ぶことは不可能」ということでした。

これらの授業ではざっくり2010年くらいまでのmethod(の一部)しかカバーされません。

当然ですが、統計家にならないと、なかなか最先端の理論を学ぶことは難しいと思います。

 

 

Probability

確率論の基本です。

・measure theory

・それぞれの確率分布の特徴

・multivariate distribution

・MGF, ChF

・いろんな不等式、exponential family

・convergence theorem

・大数定理、中心極限定理

・Martingale

あたりです。

 

これも前編で、後編はより詳細を学ぶようです。

これらがわかると、統計の論文がある程度読めるようになります

 

ガチガチの数学なので、ハードルが高いですが(特にmeasure theory)、自分の場合はもともと数学が得意だったこともあり(10年以上前ですが)、たのしんで学べました。

Youtubeのヨビノリさん、偉大な先人方のブログには大変お世話になりました。これらがなければ理解不能でした。良い時代です。

 

確率論も当然奥が深く、学べば学ぶほど「学び切れない」ことがわかりました。

ただその入り口の内容を理解できたことは、自分の中で「確率統計」について結構な自信になりました。

 

 

Algorithm

Computer scienceの基礎的な内容です。

・sorting algorithm

・greedy algorithm

・linear algebraのいろいろなalgorithm

・Numerical integration, Monte Carlo intergration

・parallel programming

などなど。

まだ受講していないので詳細は不明ですが、基本的には「統計ソフトの中身」についての授業、という認識でよさそうです。

 

 

大学院レベルの確率統計は研究をする上でどれくらい必要なのか

さて本題です。

上記を学ぶのにはかなり労力が要ります。理論統計家でない方にとって、これらを学ぶのはcost performanceがよいと言えるのでしょうか。

私の結論は「一般的にはNo」です。

 

まず、統計を学んで一番に思ったことは、applicationであれば疫学の方が100倍重要だという点です。

そもそも医学論文は疫学的に(統計的にもですが)ダメダメなものが多く、そもそもしっかりしたapplication論(≒疫学)を学ぶことが先決です。

✔︎疫学では、「そもそも何をしたいか」「どういうデータが必要か」「study design」「交絡やselection biasをどう対処するか」「因果推論の基礎」といった部分を学ぶので、より実践的です。

✔︎統計のmethodで学ぶ、generalized linear modelや〇〇test、COX modelの基礎などというのはそれでも重要になってきますが、これは「大学院レベルの統計」として腰を据えて学ばなければ理解できない内容ではないかもしれません。

→統計入門の教科書には必ず載っているはずなので、それを三読するくらい or 修士レベルの授業で学ぶ、くらいで十分かと思います。

 

観測された結果をどう解釈するのか、という視点も、より疫学の方が重視している印象です。

極端に単純化すれば、そのデータより信頼性の高いp値を計算するのが統計学、そもそもp値はそれほど重視せず結果を全体的に解釈するのが疫学、といった感じです。

 

Applied researcherにとって大学院レベルの統計の勉強が必要となってくる状況は、おそらく「最近の統計methodを正しく使う」必要が出てきた時かと思われます。自分はそうです。

特にdata splittingやmachine learning、発展的な因果推論の手法が絡む場合は、そもそもそれを提示した統計論文を読む必要があり、そのためには基礎的な統計知識が必須です。

上記を学んでから、かなり統計論文が読めるようになった実感があります。

 

当然、統計論文を書きたいという意志がある場合、統計の基礎を学ぶことは必須です。医学論文が特殊な状況にあり、特に疫学を学ばずとも実際に論文が書ける+publishできるわけですが、それはシステムの欠陥と言わざるを得ません。よっぽどの天才を除いて、宇宙学を学ばずして宇宙学の論文は書けないはずです。

 

 

でも勉強したら面白い

でも統計学は面白いです。

Applied researchでは最新論文をチェックすることが多いわけですが、時間がある方は基礎に立ち返って勉強してみると、また新しい見方が得られるかもしれません。

最近では大学院に在籍せずとも勉強可能です。やっていることはほぼ教科書の通読です(演習問題含め)。

教科書の選定さえしっかりやれば、あとは興味と根気があれば自主勉強可能です。

 

 

まとめ

applied researchの研究者は、統計より疫学を学ぶべき。

統計の基礎的なことは大事だが、大学院レベルの内容まで踏み込む必要は普通なさそう。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2022 All Rights Reserved Powered by AFFINGER5.