「何の要素で調整するか。」研究でよくある話題です。
調整因子の決め方は、おそらく「単変量解析で有意なものを使う」が一番メジャーな方法なのではないでしょうか(特に臨床研究では)。
稀にBackward selectionなどを使った論文も見ます。
一方、疫学研究は、ほとんどがselection methodを使っていません。
何が正解なのでしょうか。
この記事では、調整因子の正しい決め方を解説します。
Contents
多変量解析における調整因子の正しい決め方
最初に答えですが、「過去の論文なり専門家の意見を参考に決める」のが正しいやり方です。
・狭心症患者で腎機能と死亡率の関連性を研究したいとします(本記事は全てこの例に準じます)。
→おそらく今までいろいろな論文で、腎機能と死亡率の関連性について検討されています。それに使用されている因子で、自分の論文も調整すればOKです。
→例えば、年齢・性別はどんな論文でもほぼ必ず調整されています。
→そしたら年齢・性別では調整しないと(一般的には)駄目です。
逆に言うと、統計的に調整因子を見つける方法は、どれも正しいとは言えません。
この理由を解説していきます。
どういう特徴があるものを調整因子とすべきか
調整因子とは、腎機能(exposure)と予後(outcome)の共通の原因であるものであるべきです。
なぜなら、そういう場合、その調整因子を介してexposureとoutcomeの間に「みせかけの関連性」が生じるからです。
・例えば年齢で調整するということは、年齢が同じとして、腎機能と死亡率の関連性を見るという解析をすることになります。
→年齢が腎機能に影響し、年齢が死亡率にも影響するので、同じ年齢での比較とするのがフェアですね。
→もし調整しなければ、腎機能が悪い人は年齢が高いから死亡率が高いのかもしれませんね。
→つまり、腎機能自体による死亡率への影響は推算できません。
*****
この、exposureとoutcomeの共通の原因であるものを、交絡因子と言います。
交絡因子=調整すべきものです。
*透析の有無は調整すべきでしょうか?
透析は、腎機能の結果で、死亡率の原因です。
→これは中間因子といい、調整すべきでないものです。
もし調整してしまうと、透析を行っている確率が同じ集団で、腎機能と予後の関連性を比較することとなります。
これは意味が???になってしまいます。
*****
過去の文献や専門家の意見を参照にするということは、何がexposureとoutcomeの共通の原因かという判断はlogicalにしかわからない(統計的にはわからない)、ということを意味しています。
これは簡単に証明できます。
よくあるselection methodをみていきましょう。
統計的には交絡因子を決定できないという証明
Automated selectionはp値以外にも色々基準を使うことができますが、ここではp値によるselectionに絞ってみてみます。
p値意外の他の基準でも同じようなことです。
Univariate screening
単変量解析で、有意なものを調整因子として使う方法です。
臨床研究で多用されています。
<こういう方法>
年齢とoutcomeの関連をみて、有意だったから年齢で調整する。
性別とoutcomeの関連は有意でなかったから調整しない。
などなど。
✔これは何が駄目かというと、その因子とexposure(腎機能)の関連性を評価していないことです。
調整因子は腎機能の原因でなければなりませんが、それを評価していません。
中間因子も調整する候補となってしまいます。なので駄目です。
✔あと、交絡因子であるためにp<0.05でoutcomeと関連している必要はありません。
加え、それぞれの単変量解析をやると、multiple testing*が問題となります。
→しかし、univariate screeningのp値をBonferroni correctionなどで調整するのは一般的ではありません。
*Multiple testing
p<0.05で有意とすると、5%の確率で間違って結論してしまいます。
検定を例えば2回やると、5%の確率で間違う事象が2回になります。
検定を行う回数が増えるともっともっと増えていく、ということです。
(この問題があるため、今Table 1にはp値を表示しないことが推奨されています:詳細こちら)
Backward selection
時々みます。
<こういう方法>
全部の因子を入れる
→p値が一番大きいものを除く
→すべてのp値が0.05(とか0.1とか)以下となるまで繰り返す
✔p値のカットオフやmultiple testingの問題はselection methodに常にありますが、特にbackward selectionはこの問題が大きいです。
→最初に20個の因子があった場合、最初のモデルは20回の検定、次のモデルは19回の検定・・・となるためです。
✔また、backward selectionの意味は、「統計的に定めた交絡因子で調整した時に、アウトカムと関連がないものを交絡因子として考えない」ということです。
→これには、「ある交絡因子の候補Aとアウトカムの関連における交絡因子は、exposureとアウトカムの交絡因子と同じである」ということが前提になっており、それはおそらく正しくありません。
Forward selection
これは一番推奨されていない手法です。
<こういう方法>
univariateでp値の最も低い因子を入れる
→次にunivariateでp値の最も低い因子を入れ、p<0.05なら残し、p≥0.05なら除く
→繰り返す
✔これは、negativeにconfoundingしているもの(例えば腎機能が悪いがアウトカムは良いという何らかの因子)が交絡因子として選ばれないという問題があります。
→univariateではどちらでも有意だとしても、negative confoundingなのでモデルに入れると有意で無くなってしまい、省かれてしまいます。
✔multiple testingの問題があります。p値にかなり依存するため、危険です。
Stepwise selection
色々なアルゴリズムがありますが、普通使われません。
✔limitationはForward selectionに準じますが、新しい因子を入れてもともと入っていた因子がp≥0.05となればそれも省かれます。
→Forward selectionよりさらにひどいmultiple testingの問題があるのです。
exposureにもoutcomeにも関連する因子
単変量解析で、exposureの関連がp<0.05、outcomeとの関連もp<0.05なら、交絡因子として考えて良いのではないか、と言われることもあります。
上記のautomated selectionよりは妥当かもしれませんが、
p<0.05で判断できると仮定しても2つ問題があります。
✔1つは、中間因子の可能性が除外できない点です。
透析と腎機能は有意に関連する、という上記の例です。
✔2つ目は、M-biasという構造です。
ある交絡因子の候補Aがexposureと関連するが、実はそれが交絡により関連している+Aとoutcomeとの関連も交絡を原因としている場合です。
詳細は略ですが、この場合Aは「collider」となってしまい、調整されるべきでない因子となります。
(調整すると、疫学でいう「selection bias」を生み出します:詳細こちら)
以上より、交絡因子は統計的には決定できない事がわかりました。
実際に研究する時のポイント
多変量解析の場合は、論理的に(過去の論文を参考にして)調整すべきという事がわかりました。
しかし実際は、サンプルサイズが少なくて全部調整するとoverfittingとなってしまうことは、非常によくあります。
こういう場合どうすればよいでしょうか。
Propensity scoreを使うことは一つの手です。
逆にPropensity scoreを使うべき状況は、こういった場合に限られます!
是非詳細を理解ください(こちら)。
overfittingを気にする医者のreviewerは多いです。
論文は書いても出版されなければ意味ないので、automated selectionを使うことになります。
次善の策は、univariate screeningです。
がポイントが一つ。
そもそもunivariate screeningの対象にする因子を、自分でlogicalに絞ることです。
→つまり、明らかな中間因子はscreeningの対象としません。
そうすれば、少し理想に近づきます。
※サンプルサイズが大きければ、自分で交絡因子をlogicalに選んで、methodに明記すれば何の問題もありません。
結論
多変量解析で調整する因子は、過去の論文を参照してLogicalに選ぶのが正解です。
ではまた。