$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L$$
$$E\left[ Y|A=1,L=1\right] - E\left[ Y|A=0,L=1\right] = (\beta_{0} +\beta_{1}+\beta_{2}) - (\beta_{0} +\beta_{2})=\beta_{1}$$
$$E\left[ Y|A=1,L=0\right] - E\left[ Y|A=0,L=0\right] = (\beta_{0} +\beta_{1}) - (\beta_{0}) = \beta_{1}$$
$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L+\beta_{3} (A*L)$$
$$\beta_{1}*0.8+(\beta_{1}+\beta_{3})*0.2$$
1. 次元の呪い curse of dimensionality | 条件づける変数が増えると,考えるべき条件付き期待値の数が激増する.二値変数だけでも調整変数が10個(喫煙有無,飲酒有無,etc…)あれば,$2^{10}$通りの組み合わせで「条件付き期待値」が生じる.そのためモデルの単純化が必要.それがパラメトリックということ |
2. 連続変数の条件付けのため | 連続変数 $A$を考えるとき,全ての$A$の値の層を考えるのは不可能.たとえば脳卒中リスク$Y$と曝露因子である血圧$A$の関連性を考えた時,$A$は連続変数である.おおむね $A$と比例関係に $Y$は増えていくデータが得られているかもしれないが,手元の100例のサンプルにはピッタリ $A=155$というケースは存在しないかもしれない.このようなとき,周辺データの情報を借りて予想をつけて直線を引くしかない.それがパラメトリックモデル. |
$$ E\left[ Y|A,L_{1},L_{2}\right] =\beta_{0} +\beta_{1} A+\beta_{2} L_{1}+\beta_{3} L_{2} $$
このような回帰式を用いるとき,つまり $A$,$L_{1}$, $L_{2}$ の掛け算項を含まない推定をするとき,$A$ とアウトカム $Y$ との関連が $L_{1}$, $L_{2}$ によらず常に一定である(=Constant Effect) ということを前提にしている
$A$が二値変数の場合であれば,求めたい因果効果は
$$ E\left[ Y|A=1,L_{1},L_{2}\right] -E\left[ Y|A=0,L_{1},L_{2}\right] $$
となるが,たとえば$L_{1}=0$, $L_{2}=0$のとき,それは
$$E\left[ Y|A=1,L_{1}=0,L_{2}=0\right] -E\left[ Y|A=0,L_{1}=0,L_{2}=0\right] = \beta_{1}$$
となる.
同様に $L_{1}=1$, $L_{2}=1$のとき,
$$E\left[ Y|A=1,L_{1}=1,L_{2}=1\right] -E\left[ Y|A=0,L_{1}=1,L_{2}=1\right] =\beta_{1}$$ である.
$A$による治療効果は,$L_{1}$, $L_{2}$によらないということ.