統計用語(英語)を正しく使おう:efficient, validなど

英単語、ちょっと曖昧に使ってたりしませんか?

論文書くとき、同じ単語を避けるため、efficientlyやvalidlyとかaccuratelyとか、使いまわしてないですか?

だめです。本当は。

論文でやっていることは統計的な解析のはずなので、これら統計用語は正確に「統計用語としての意味」で用いられるべきです。

本記事ではこれを解説します。

 

 

統計用語を正しく使おう

統計用語を正しく使おう

解析をしたら、狭心症患者に対し、ある薬Aの使用が強力に予後と関連した!!!

p=0.01だった。

あなたはこれにfocusした論文を書いています。

でも繰り返し繰り返し「The use of drug A was significantly associated with …」と書くと微妙なので、

The association between drug A and outcome was robust (valid).

なんて書いてしまいます。

 

******

efficient, consistent, reliable, valid, accurate, not biased...

確かに似てそうな意味ですが。

実は統計用語としてはっきり意味が定まっています

これを明らかにするのが、本記事の目的です。

 

 

まずこの意味不明な数式と向き合おう・・・・

これ。

MSE (Â) = Var (Â) + Bias2 (Â)

意味不明ですよね、、、

でも、ちょっとだけお付き合いください。ちょっとだけ。

 

まずÂってなんだ?なんで上に変な記号が付いてるんだ???

と思うと思います。

これは、サンプル(今の研究の集団)から算出した結果=Estimate、を意味します。

例えば狭心症患者は世の中に数千万人いますね。

でもあなたの研究はn=500程度だと思います。

n=500の結果はEstimateに過ぎません。なので「Â」。

狭心症患者全員におけるDrug Aの効果は、求めたい本当の値なので「A」。

 

Bias(Â)ってなんだ?と思われる方。

これは直感通りで、ÂAとの差です。

Biasがなければ、この2つは同じになるはずです。

なので研究では、如何にBiasを無くすかが、最重要課題なわけですね。

*実際の値はわからないので(だから研究しているわけです)、Biasは計算不可能です。

*本当は「E(Â)とAとの差」ですが、些細な違いかつ混乱するので省きます。

 

Var (Â)も簡単です。

Var ()はVariance = 分散、を意味しています。

つまりÂの分散(値のバラバラ具合)です。

これは普通に計算できますね。

 

✔さて、MSE (Â)。これは、Mean Squared Errorを意味します。

聞き慣れないかもしれません。

これは、文字通り「Squared Error」の平均、を意味します。

「Squared Error」とは、「患者それぞれの (Â - A)の2乗」です。

なんとなくイメージつくでしょうか。

*これはÂがわからないので計算できません。

 

☆もしBias = 0なら、MSE (Â) = Var (Â)となる、ということが重要です。

 

 

さて、英単語に話を戻そう

さあ、MSE (Â) = Var (Â) + Bias2 (Â)がイメージできたら、英単語の解説にうつりましょう。

書きますよ!

EfficiencyVar (Â) の少なさ

ReliabilityVar (Â) の少なさ。Efficiencyと比較すると、「複数回サンプリングすることを前提とする場合」にReliabilityを使う事が多い。

ValidityBiasが少ないこと

AccuracyMSE (Â)が少ないこと。正確には√MSE(=RMSE)が少ないこと

 

どうでしょう!わかりやすくないですか!!

 

*Tips

実際、BiasとMSEの値は計算できません。

しかし、Study design上Biasが少ない研究、というのはあります。

その場合、「俺のStudyはvalidだ」と言っても良いかもしれません。

また、Biasが少ない研究でかつEfficientであれば、Accuracyが高い、と言えます。

 

 

*******

加えて、もうひとつ。

Consistencyn→∞としたときÂnAとなること。

 

これはどういうことは、具体的に考えるとわかりやすいです。

今、n=500の狭心症患者が算出した、Drug Aの予後に対する(平均の)効果がÂでした。

n→∞したら?

当然Aとなりますよね。というか狭心症患者は数千万人程度しかいませんが。理論的な話です。

なのでこの場合、consistentです。

 

でもそうならないのもあります。

バカバカしいですが、n=500の集団で「500人目における効果」がÂだったとしましょう。

*計算すらできないですが。individual treatment effectなので。詳細はこちら

そしたら、n=10000だったら10000人目における効果。

n→∞だったら?∞人目における効果。

これは真の値Aには収束しませんね。

この場合はconsistentでありません。

 

*ただ、統計的な意味でのconsistentは、そんなに忠実に使用されていません

多くの場合は、色んなsensitivity analysisでも同じような結果が得られた場合、「結果がconsistentであった」と記述されます。

なのでこれは無視してもいいです。

こんだけ言っときながら!

 

 

用語は正しく。。

上に紹介した他にも、いくつかあります。

 

Significantは「統計的な有意差がある」という意味のみ。

「すごく」をsignificantと書いてしまっては、紛らわしいです。避けましょう。

とか。

 

統計用語は、統計用語として正しく使いましょう。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.