目次

回帰分析

回帰分析の本質

$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L$$

$$E\left[ Y|A=1,L=1\right] - E\left[ Y|A=0,L=1\right] = (\beta_{0} +\beta_{1}+\beta_{2}) - (\beta_{0} +\beta_{2})=\beta_{1}$$

$$E\left[ Y|A=1,L=0\right] - E\left[ Y|A=0,L=0\right] = (\beta_{0} +\beta_{1}) - (\beta_{0}) = \beta_{1}$$

標準化

$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L+\beta_{3} (A*L)$$

$$\beta_{1}*0.8+(\beta_{1}+\beta_{3})*0.2$$

回帰モデル

1. 次元の呪い
curse of dimensionality
条件づける変数が増えると,考えるべき条件付き期待値の数が激増する.二値変数だけでも調整変数が10個(喫煙有無,飲酒有無,etc…)あれば,$2^{10}$通りの組み合わせで「条件付き期待値」が生じる.そのためモデルの単純化が必要.それがパラメトリックということ
2. 連続変数の条件付けのため連続変数 $A$を考えるとき,全ての$A$の値の層を考えるのは不可能.たとえば脳卒中リスク$Y$と曝露因子である血圧$A$の関連性を考えた時,$A$は連続変数である.おおむね $A$と比例関係に $Y$は増えていくデータが得られているかもしれないが,手元の100例のサンプルにはピッタリ $A=155$というケースは存在しないかもしれない.このようなとき,周辺データの情報を借りて予想をつけて直線を引くしかない.それがパラメトリックモデル.

パラメトリックモデルの仮定

1. 掛け算項の有無

$$ E\left[ Y|A,L_{1},L_{2}\right] =\beta_{0} +\beta_{1} A+\beta_{2} L_{1}+\beta_{3} L_{2} $$

このような回帰式を用いるとき,つまり $A$,$L_{1}$, $L_{2}$ の掛け算項を含まない推定をするとき,$A$ とアウトカム $Y$ との関連が $L_{1}$, $L_{2}$ によらず常に一定である(=Constant Effect) ということを前提にしている

$A$が二値変数の場合であれば,求めたい因果効果

$$ E\left[ Y|A=1,L_{1},L_{2}\right] -E\left[ Y|A=0,L_{1},L_{2}\right] $$

となるが,たとえば$L_{1}=0$, $L_{2}=0$のとき,それは

$$E\left[ Y|A=1,L_{1}=0,L_{2}=0\right] -E\left[ Y|A=0,L_{1}=0,L_{2}=0\right] = \beta_{1}$$

となる.

同様に $L_{1}=1$, $L_{2}=1$のとき,

$$E\left[ Y|A=1,L_{1}=1,L_{2}=1\right] -E\left[ Y|A=0,L_{1}=1,L_{2}=1\right] =\beta_{1}$$ である.

$A$による治療効果は,$L_{1}$, $L_{2}$によらないということ.

2. Functional Form