多変量解析、どう正しく設計するか【調整因子の決め方】

「何の要素で調整するか。」臨床研究でよくある話題です。

調整因子の決め方は、おそらく「単変量解析で有意なものを使う」が一番メジャーな方法なのではないでしょうか。稀に、Backward selectionなどを使った論文も見ます。一方、疫学研究は、ほとんどがselection methodを使っていません。何が正解なのでしょうか。

この記事では、調整因子の正しい決め方を解説します。因果推論です。

 

 

多変量解析における調整因子の正しい決め方

最初に答えですが、「過去の論文なり専門家の意見を参考に決める」のが正しいやり方です。

 

狭心症患者で腎機能と予後の関連性を研究したいとします(本記事は全てこの例に準じます)。

→おそらく今までいろいろな論文で、腎機能と予後の関連性について検討されています。それに使用されている因子で、自分の論文も調整すればOKです。

→例えば、年齢・性別はどんな論文でもほぼ必ず調整されています。そしたら年齢・性別では調整しないと(一般的には)駄目です。

 

逆に言うと、統計的に調整因子を見つける方法は、どれも正しいとは言えません

この理由を解説していきます。

 

 

どういう特徴があるものが調整因子か

調整因子とは、腎機能(exposure)と予後(outcome)の共通の原因であるものであるべきです。

なぜなら、そういう場合、その調整因子を介してexposureとoutcomeの間に「みせかけの関連性」が生じるからです。

 

・例えば年齢で調整するということは、年齢が同じとして、腎機能と予後の関連性を見るという解析をすることになります。

→年齢が腎機能に影響し、年齢が予後にも影響するので、同じ年齢での比較とするのがフェアです。

→もし調整しなければ、腎機能が悪い人は年齢が高いから予後が悪いのかもしれませんね。

→つまり、腎機能自体による予後への影響は推算できません。

 

この、exposureとoutcomeの共通の原因であるものを、交絡因子と言います。交絡因子=調整すべきものです。

 

透析の有無は調整すべきでしょうか?

透析は、腎機能の結果で、予後の原因です。

→これは中間因子といい、調整すべきでないものです。

もし調整してしまうと、透析を行っている確率が同じ集団で、腎機能と予後の関連性を比較することとなります。

これは意味があるのかわからない解析ですね。

 

過去の文献や専門家の意見を参照にするということは、何がexposureとoutcomeの共通の原因かという判断はlogicalにしかわからない(統計的にはわからない)、ということを意味しています。

これは簡単に証明できます。

よくあるselection methodをみていきましょう。

 

 

統計的には交絡因子を決定できないという証明

Automated selectionはp値以外にも色々基準を使うことができますが、ここではp値によるselectionに絞ってみてみます。

p値意外の他の基準でも同じようなことです。

 

Univariate screening

単変量解析で、有意なものを調整因子として使う方法です。

臨床研究で多用されています。

→年齢とoutcomeの関連をみて、有意だったから年齢で調整する。性別とoutcomeの関連は有意でなかったから調整しない。こういうことです。

 

✔これは何が駄目かというと、その因子とexposure(腎機能)の関連性を評価していないことです。

調整因子は腎機能の原因でなければなりませんが、それを評価していません。

中間因子も調整する候補となってしまいます。なので駄目です。

 

✔あと、交絡因子であるためにp<0.05でoutcomeと関連している必要はありません。

加え、それぞれの単変量解析をやると、multiple testing*が問題となります。

→しかし、univariate screeningのp値をBonferroni correctionするのは一般的ではありません。

 

*Multiple testing

p<0.05で有意とすると、5%の確率で間違って結論してしまいます。

検定を例えば2回やると、5%の確率で間違う事象が2回になります。

検定を行う回数が増えるともっともっと増えていく、ということです。

(この問題があるため、今Table 1にはp値を表示しないことが推奨されています)

 

Backward selection

時々みます。

全部の因子を入れる→p値が一番大きいものを除く→すべてのp値が0.05(とか0.1とか)以下となるまで繰り返す、という方法です。

 

✔p値のカットオフやmultiple testingの問題はselection methodに常にありますが、特にbackward selectionはこの問題が大きいです。

→最初に20個の因子があった場合、最初のモデルは20回の検定、次のモデルは19回の検定・・・となるためです。

 

✔また、backward selectionの意味は、「統計的に定めた交絡因子で調整した時に、アウトカムと関連がないものを交絡因子として考えない」ということです。

→これには、「ある交絡因子の候補Aとアウトカムの関連における交絡因子は、exposureとアウトカムの交絡因子と同じである」ということが前提になっており、それはおそらく正しくありません。

 

 

Forward selection

これは実は推奨されていない手法です。

univariateでp値の最も低い因子を入れる→次にunivariateでp値の最も低い因子を入れ、p<0.05なら残し、p≥0.05なら除く→繰り返す、という方法です。

 

✔これは、negativeにconfoundingしているもの(例えば腎機能が悪いがアウトカムは良いという何らかの因子)が交絡因子として選ばれないという問題があります。

→univariateではどちらでも有意だとしても、negative confoundingなのでモデルに入れると有意で無くなってしまい、省かれてしまいます。

 

✔multiple testingの問題があります。p値にかなり依存するため、危険です。

 

 

Stepwise selection

色々なアルゴリズムがありますが、普通使われません。

 

✔limitationはForward selectionに準じますが、新しい因子を入れてもともと入っていた因子がp≥0.05となればそれも省かれます。

→Forward selectionよりさらにひどいmultiple testingの問題があるのです。

 

 

exposureにもoutcomeにも関連する因子

単変量解析で、exposureの関連がp<0.05、outcomeとの関連もp<0.05なら、交絡因子として考えて良いのではないか、と言われることもあります。上記のautomated selectionよりは妥当ですが、2つ問題があります。

 

✔1つは、中間因子の可能性が除外できない点です。透析と腎機能は有意に関連する、という上記の例です。

 

✔2つ目は、M-biasという構造です。ある交絡因子の候補Aがexposureと関連するが、実はそれが交絡により関連している+Aとoutcomeとの関連も交絡を原因としている場合です。詳細は略ですが、この場合Aは調整されるべきでない因子となります。

 

以上より、交絡因子は統計的には決定できない事がわかりました。

 

 

実際に研究する時のポイント

多変量解析の場合は、論理的に(過去の論文を参考にして)調整すべきという事がわかりました。

しかし実際は、サンプルサイズが少なくて全部調整するとoverfittingとなってしまうことは、非常によくあります。

こういう場合どうすればよいでしょうか。

 

Propensity scoreを使うことは一つの手です(別記事で解説します)。

しかし、基本的には「理想的な因果推論を諦める」事になります。

 

overfittingを気にする医者のreviewerは多いです。論文は書いても出版されなければ意味ないので、automated selectionを使うことになります。よくあるのは、やはりunivariate screeningです。

ポイントとしては、そもそもunivariate screeningの対象にする因子を、自分でlogicalに絞ることです。つまり、明らかな中間因子はscreeningの対象としません。そうすれば、少し理想に近づきます。

 

※サンプルサイズが大きければ、自分で交絡因子をlogicalに選んで、methodに明記すれば何の問題もありません。

 

 

結論

多変量解析で調整する因子は、過去の論文を参照してLogicalに選ぶのが正解です。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.