パラメトリックモデル、ノンパラ、あまり聞き慣れないかもしれません。
これは全然難しくないのですが、なんか解説みても難しく感じちゃう方、いるかと思います。多くの解説が難しそうに書いてあるから。
この記事では、パラメトリック/ノンパラメトリックについて、非常に簡単に解説しました。
ノンパラメトリックモデルとは?
最初に結論です。
ノンパラメトリックモデルとは、
全パターンの平均を何も前提なく示せるモデル
であり、
全パターンの数分、右辺に因子があるモデル
です。
具体的に考えれば一発でわかります。
(というか具体的に考えないとわかりづらいかもしれません・・)
例えば線形モデルで、
年収を性別で「モデル」するとします。
すると、
年収=500万+20万*性別
となったとします。
男性の平均は520万、女性500万円となります。
これが580万と570万であろうと、なんであろうと、このモデルの数字を変えることで示すことができますね。
なぜかというと、男性の平均/女性の平均という2パターンに対し、右辺には2つの因子があるからです(500万と20万*性別の2つ)。
2パターンを2つの因子で表す=ノンパラメトリックモデルです。
パラメトリックモデルとは?
当たり前ですが・・・、
ノンパラメトリックモデルでないモデルをパラメトリックモデルといいます。
年収を性別と人種(日本人かそれ以外か)でモデルしましょう。
すると
年収=495万+15万*性別+10万*人種
となりました。
性別と人種の組み合わせは4つありますが、右辺には3つしかない・・・パラメトリックモデルということです。
なぜか?(ここ重要ですよ!)
・女性、日本人以外の平均:495万
・女性、日本人の平均:505万
・男性、日本人以外の平均:510万
・男性、日本人の平均:520万
これら4つの値、何も前提なく示せているでしょうか?
つまり、どんな4つの値の組み合わせも、上の式の数字を変えることで表せるでしょうか?
だめですよね。
例えば本当は、4つ目(男性、日本人の平均)が520万でなく550万だったとしたら。
1〜3つ目で式の数字は決まってしまうので、「4つ目は520万となる」という前提がかかってしまうのです。
これがパラメトリックモデル。
最後に、年収を「入社後の年数」でモデルしてみましょう。
年収=400万+20万*入社後の年数
となりました。
入社後1年の平均が420万、2年で440万・・・となるのですが、これは明らかにパラメトリックモデルですね。
なぜなら、もし3年目が480万だったら、上の式の数字をいじっても表せないからです。
最初に言ったように、ノンパラメトリックモデルには、右辺に全パターンの数分の因子がある必要があります。
入社後の年数は50種類くらいあります。でも右辺には2つ。明らかにパラメトリックモデルですね。
実は、右辺に連続変数が含まれた時点でパラメトリックモデルとなります。
パラメトリックモデルの「前提」を認識しよう
ここから、実践的な内容となってきます。
何に実践的かといったら、因果推論に実践的です。
2つ目のモデルを考えましょう。
年収=495万+15万*性別+10万*人種
これがパラメトリックモデルなのは、「性別*人種」というinteraction termが無いからですね。これがあればノンパラメトリックモデルとなります。
つまり、このパラメトリックモデルの「前提」とは、「性別と人種にinteractionがないこと」となるわけです。
3つ目のモデルです。
年収=400万+20万*入社後の年数
これは、入社後の年数が増えるたびに「コンスタントに」年収が増える、事を意味しています。
より詳細には、入社後の年数と年収の関係が直線的(linear)である、ということです。
これが「前提」なのです。
本当は、もしかしたら、2次関数的に収入が伸びるかもしれませんね。
そしたら
年収=380万+10万*入社後の年数+10万*入社後の年数2
とモデルされます。
こちらの方がflexibleなモデルというわけです。
連続変数が右辺に入ると全てパラメトリックモデルとなってしまいますが、このように2乗、3乗のtermを入れることで、
モデルがflexibleになる
=いろいろなパターンを示すことができる
=前提が少なくなる
=因果推論にとって良いモデル
というわけです。
*もし本当の本当は直線的な関係だったとしても、2乗のtermのbeta coefficientが0になるだけですね。
つまり2乗が入っているモデルは、直線的な関係性も示すことができるのです。
因果推論では「前提」が無いほうが良い
因果推論には色々な推定が必要です。
モデルに置いてもそうです。
前提がある=「バイアスがかからず解釈できる状況が限られる」という意味なので、前提はなければ無いほどよいのです。
なので「年齢、性別、喫煙」という因子で調整する場合、
年齢*性別とか性別*喫煙とか年齢*性別*喫煙とか、interaction termが入るなら入れたほうがより正確なモデルとなるし、
年齢だけでなく年齢2も入れたほうがよりよいのです。
ただ当然、モデルのoverfitも避けなくてはいけません。
結論
ノンパラメトリックモデルとは、全パターンの平均を「a priori restrictionなく」示せるモデルであり、全パターンの数分右辺に因子があるモデルです。
パラメトリックモデルのa priori restrictionを認識し、因果推論ではなるべくそれがなくなるモデルが良いモデルです。
ではまた。