No.16705 重回帰分析の検定について  【K】 2012/04/02(Mon) 13:44

いつも拝見して勉強させていただいております。
1つ疑問があり,質問させていただきたく思います。

重回帰分析においては,「分散分析による検定」と「偏回帰係数の検定」の2種類がありますが,「分散分析による検定」は必要でしょうか?

1 要因分散分析と多重比較においては,テューキーなどの多重比較の前に分散分析を先行させる必要はない(または先行させるのは誤り)とする考え方があり個別 の差を多重比較で見る方法がとられるようですが,似たような扱いで重回帰分析においても偏回帰係数の有意性だけを見れば十分のような気もするのですが,間 違った考え方でしょうか?

ご指導いただければ幸いです。
宜しくお願い致します。

No.16706 Re: 重回帰分析の検定について  【青木繁伸】 2012/04/02(Mon) 15:18

「分散分析による検定」というのは,分散分析表に表される検定のことでしょう。
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg4.html
帰無仮説 H0: 「分析に使用した独立変数で,従属変数は説明できない」。
対立仮説 H1: 「分析に使用した独立変数で,従属変数は説明できる」。

「偏回帰係数の検定」は,
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg3.html
帰無仮説 H0: 「bi=0 (i=1,2,…,p)」。
対立仮説 H1: 「bi≠0 (i=1,2,…,p)」。

独立変数が1個だけの場合なら,両者の結果(P値)は同じですが,独立変数が複数なら,一致する訳がないでしょう(前者は結果が一つ,後者は複数ということだけからも)。

ということで,別物です。

No.16707 Re: 重回帰分析の検定について  【K】 2012/04/02(Mon) 16:14

青木先生

早速のご回答をいただきまして誠にありがとうございます。
自分自身の正しい理解のため,恐れ入りますがもう1つ確認させてください。

分散分析表に表わされる検定の帰無仮説 H0:「分析に使用した独立変数で,従属変数は説明できない」は,式の意味合いで表すとどのような形になりますでしょうか?

私は以下のように理解しておりまして,

帰無仮説 H0:「すべての偏回帰係数が0である」(B1=B2=,…,=Bp=0)

こ の仮説について,回帰の平均平方和と残差の平均平方和の比(F値)に基づき,検定していると理解(誤解?)しておりました。もし,この仮説の形が正しいの であれば,「偏回帰係数の検定」で独立変数の有意性が確認できれば「分散分析による検定」は不要ではないだろうか(偏回帰係数が1つでも有意になれば分散 分析表の結果も有意になる?)と,思った次第です。

まだ理解が曖昧なので,頓珍漢なことを質問してしまっているかもしれませんが,ご指導いただければ幸いです。

宜しくお願い致します。

No.16709 Re: 重回帰分析の検定について  【青木繁伸】 2012/04/02(Mon) 16:48

> 分散分析表に表わされる検定の帰無仮説 H0:「分析に使用した独立変数で,従属変数は説明できない」は,式の意味合いで表すとどのような形になりますでしょうか?

http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg4.html にあるように,MSr が MSe より十分に大きければ回帰の意味があるということです(回帰で説明できる部分が残差より大きい)。

以下のようなシミュレーション(反例)を示しておきます。
# tri.mat, gendat, tolerance は http://aoki2.si.gunma-u.ac.jp/R/index.html で定義したもの
n <- 50
r1 <- 0.3
(r <- tri.mat(c(1, r1, 1, r1, r1, 1, r1, r1, r1, 1)))
p <- 3
d <- as.data.frame(gendat(n, r))
colnames(d) <- c(paste("x", 1:3, sep=""), "y")
tolerance(d)
a <- lm(y~., d)
summary(a)

分析結果
> # tri.mat, gendat, tolerance は http://aoki2.si.gunma-u.ac.jp/R/index.html で定義したもの
> n <- 50
> r1 <- 0.3
> (r <- tri.mat(c(1, r1, 1, r1, r1, 1, r1, r1, r1, 1)))
[,1] [,2] [,3] [,4]
[1,] 1.0 0.3 0.3 0.3
[2,] 0.3 1.0 0.3 0.3
[3,] 0.3 0.3 1.0 0.3
[4,] 0.3 0.3 0.3 1.0
> p <- 3
> d <- as.data.frame(gendat(n, r))
> colnames(d) <- c(paste("x", 1:3, sep=""), "y")
> tolerance(d)
tolerance VIF
x1 0.83125 1.203008
x2 0.83125 1.203008
x3 0.83125 1.203008
y 0.83125 1.203008
> a <- lm(y~., d)
> summary(a)

Call:
lm(formula = y ~ ., data = d)

Residuals:
Min 1Q Median 3Q Max
-1.8177 -0.6298 0.0453 0.6792 1.6559

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.070e-16 1.344e-01 0.000 1.000
x1 1.875e-01 1.448e-01 1.295 0.202
x2 1.875e-01 1.448e-01 1.295 0.202
x3 1.875e-01 1.448e-01 1.295 0.202

Residual standard error: 0.9505 on 46 degrees of freedom
Multiple R-squared: 0.1687, Adjusted R-squared: 0.1145
F-statistic: 3.113 on 3 and 46 DF, p-value: 0.03524
x1, x2, x3 に対する偏回帰係数が0であるという帰無仮説は全て採択される。しかし,回帰の分散分析の結果は P = 0.03524 であり,回帰分析が有効ではないという帰無仮説は棄却される。

No.16710 Re: 重回帰分析の検定について  【K】 2012/04/02(Mon) 17:10

青木先生

ご丁寧にご返答いただきまして誠にありがとうございます。
大変よくわかりました。引き続き勉強させていただきます。

今後ともよろしくお願い申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る