【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析における相互作用

【Rによるデータサイエンス】線形回帰分析 〜 重回帰分析」で重回帰分析について簡単に勉強した。

そこでは、説明変数の間の関連性は考えずに、目的変数と説明変数間の相関関係のみを用いた。
ところが、説明変数同士にも相関関係が有る場合もあるだろう。たとえば、風速と気温には関連性がある。
このように、説明変数の間の相関関係を、相互作用と呼ぶ。

Rでは、「y ~ (x1 + x2)^2」によってx1とx2を相互作用を持つ説明変数に持つ目的変数yの線形回帰分析を実施できる。

> air.lm2<-lm(Ozone~(Solar.R+Wind+Temp)^2,data=airquality)
> summary(air.lm2)

Call:
lm(formula = Ozone ~ (Solar.R + Wind + Temp)^2, data = airquality)

Residuals:
    Min      1Q  Median      3Q     Max 
-38.685 -11.727  -2.169   7.360  91.244 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)   
(Intercept)  -1.408e+02  6.419e+01  -2.193  0.03056 * 
Solar.R      -2.260e-01  2.107e-01  -1.073  0.28591   
Wind          1.055e+01  4.290e+00   2.460  0.01555 * 
Temp          2.322e+00  8.330e-01   2.788  0.00631 **
Solar.R:Wind -7.231e-03  6.688e-03  -1.081  0.28212   
Solar.R:Temp  5.061e-03  2.445e-03   2.070  0.04089 * 
Wind:Temp    -1.613e-01  5.896e-02  -2.735  0.00733 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.17 on 104 degrees of freedom
  (42 observations deleted due to missingness)
Multiple R-squared:  0.6863,    Adjusted R-squared:  0.6682 
F-statistic: 37.93 on 6 and 104 DF,  p-value: < 2.2e-16

R-Squared(決定係数)を見ると、「Multiple R-squared: 0.6863」とある。相互作用を考慮していない場合だと「Multiple R-squared: 0.6059」だったので、当てはめが良くなっている。