【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析における相互作用
「【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析」で重回帰分析について簡単に勉強した。
そこでは、説明変数の間の関連性は考えずに、目的変数と説明変数間の相関関係のみを用いた。
ところが、説明変数同士にも相関関係が有る場合もあるだろう。たとえば、風速と気温には関連性がある。
このように、説明変数の間の相関関係を、相互作用と呼ぶ。
Rでは、「y ~ (x1 + x2)^2」によってx1とx2を相互作用を持つ説明変数に持つ目的変数yの線形回帰分析を実施できる。
> air.lm2<-lm(Ozone~(Solar.R+Wind+Temp)^2,data=airquality) > summary(air.lm2) Call: lm(formula = Ozone ~ (Solar.R + Wind + Temp)^2, data = airquality) Residuals: Min 1Q Median 3Q Max -38.685 -11.727 -2.169 7.360 91.244 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.408e+02 6.419e+01 -2.193 0.03056 * Solar.R -2.260e-01 2.107e-01 -1.073 0.28591 Wind 1.055e+01 4.290e+00 2.460 0.01555 * Temp 2.322e+00 8.330e-01 2.788 0.00631 ** Solar.R:Wind -7.231e-03 6.688e-03 -1.081 0.28212 Solar.R:Temp 5.061e-03 2.445e-03 2.070 0.04089 * Wind:Temp -1.613e-01 5.896e-02 -2.735 0.00733 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 19.17 on 104 degrees of freedom (42 observations deleted due to missingness) Multiple R-squared: 0.6863, Adjusted R-squared: 0.6682 F-statistic: 37.93 on 6 and 104 DF, p-value: < 2.2e-16
R-Squared(決定係数)を見ると、「Multiple R-squared: 0.6863」とある。相互作用を考慮していない場合だと「Multiple R-squared: 0.6059」だったので、当てはめが良くなっている。