このページの翻訳:
  • ja

回帰分析

  • Regression Analysis

回帰分析の本質

  • 回帰分析は「条件付け」に基づくということが重要(変数が同じ値の集団をみる)
  • つまり,変数 $L$ を条件付けたアウトカム期待値の比較をしている(=本質的にはConditional Effects
    • たとえば二値変数である曝露因子 $A$ と他の変数 $L$ があったとき,
      • $L=1$での効果:$E\left[ Y|A=1,L=1\right] -E\left[ Y|A=0,L=1\right]$
      • $L=0$での効果:$E\left[ Y|A=1,L=0\right] -E\left[ Y|A=0,L=0\right]$
  • しかし実際の回帰分析では,$A*L$などの交互作用項を消去したモデルを置くことが多い
  • たとえば下式

$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L$$

  • このとき,たとえば $L$が性別であれば,対象者が男性だろうが女性だろうが治療効果の期待値は変わらない(=constant effect)という仮定を置いていることになる.※性別によらず,このモデルにおいて $A$ による因果効果は $\beta_{1}$
  • 実際に計算してみると,性別が男性($L=1$)であるときの $A$ による因果効果

$$E\left[ Y|A=1,L=1\right] - E\left[ Y|A=0,L=1\right] = (\beta_{0} +\beta_{1}+\beta_{2}) - (\beta_{0} +\beta_{2})=\beta_{1}$$

  • 同様に,性別が女性($L=0$)であるときの$A$ による因果効果は

$$E\left[ Y|A=1,L=0\right] - E\left[ Y|A=0,L=0\right] = (\beta_{0} +\beta_{1}) - (\beta_{0}) = \beta_{1}$$

  • 男性でも女性でも期待値が変わらないのであるから,両者を合わせた全体での期待値もまた変わらない.
  • つまり,constant effect の仮定が正しいのであれば, Conditinal Effect = Marginal Effect になる
    • これでも概ね marginal effect の推定として上手くいく(大きな誤推定にならない)ことはあるが,効果修飾をいれたモデルを使って Marginal Effect を推定したい場合には,標準化を行う

標準化

  • $L$層の中での効果 conditional effect から任意の集団における全体効果 marginal effect を推定する
  • このとき,効果を推定したい集団における $L$層の分布を使用し,そこに重みづけをして計算する
  • たとえば,$Y$が脳卒中リスク,$A$が服薬の有無,$L$が喫煙の有無としたとき以下の回帰モデルを考える

$$E\left[ Y|A,L\right] =\beta_{0} +\beta_{1} A+\beta_{2} L+\beta_{3} (A*L)$$

  • このとき,$L=0$ における効果は $\beta_{1}$,$L=0$ における効果は $\beta_{1}+\beta_{3}$である
  • ここで,全体の20%が喫煙者($L=1$)であった場合,marginal effect としては以下と考える

$$\beta_{1}*0.8+(\beta_{1}+\beta_{3})*0.2$$

回帰モデル

  • 回帰モデルを使うということは
    • 変数間の関係性を単純化して,$Y$の条件付き期待値を推定しているということ
      • ロジスティック回帰であれば, $logit\left( Pr\left[ Y=1|A,L\right] \right) $ を推定
  • モデルが間違う(誤推定する)リスクを犯してまでパラメトリックモデル(制約のあるモデル)を使う理由
1. 次元の呪い
curse of dimensionality
条件づける変数が増えると,考えるべき条件付き期待値の数が激増する.二値変数だけでも調整変数が10個(喫煙有無,飲酒有無,etc…)あれば,$2^{10}$通りの組み合わせで「条件付き期待値」が生じる.そのためモデルの単純化が必要.それがパラメトリックということ
2. 連続変数の条件付けのため連続変数 $A$を考えるとき,全ての$A$の値の層を考えるのは不可能.たとえば脳卒中リスク$Y$と曝露因子である血圧$A$の関連性を考えた時,$A$は連続変数である.おおむね $A$と比例関係に $Y$は増えていくデータが得られているかもしれないが,手元の100例のサンプルにはピッタリ $A=155$というケースは存在しないかもしれない.このようなとき,周辺データの情報を借りて予想をつけて直線を引くしかない.それがパラメトリックモデル.

パラメトリックモデルの仮定

1. 掛け算項の有無

$$ E\left[ Y|A,L_{1},L_{2}\right] =\beta_{0} +\beta_{1} A+\beta_{2} L_{1}+\beta_{3} L_{2} $$

このような回帰式を用いるとき,つまり $A$,$L_{1}$, $L_{2}$ の掛け算項を含まない推定をするとき,$A$ とアウトカム $Y$ との関連が $L_{1}$, $L_{2}$ によらず常に一定である(=Constant Effect) ということを前提にしている

$A$が二値変数の場合であれば,求めたい因果効果

$$ E\left[ Y|A=1,L_{1},L_{2}\right] -E\left[ Y|A=0,L_{1},L_{2}\right] $$

となるが,たとえば$L_{1}=0$, $L_{2}=0$のとき,それは

$$E\left[ Y|A=1,L_{1}=0,L_{2}=0\right] -E\left[ Y|A=0,L_{1}=0,L_{2}=0\right] = \beta_{1}$$

となる.

同様に $L_{1}=1$, $L_{2}=1$のとき,

$$E\left[ Y|A=1,L_{1}=1,L_{2}=1\right] -E\left[ Y|A=0,L_{1}=1,L_{2}=1\right] =\beta_{1}$$ である.

$A$による治療効果は,$L_{1}$, $L_{2}$によらないということ.

2. Functional Form

  • 連続変数に対する Functional form は直線的な関係を仮定するものが多い
    • 柔軟で複雑なモデルにすることもできるが,Bias-Variance トレードオフがある
    • 内的妥当性は高まるが外的妥当性が低くなる?