-
精品文档
第三十三课
逐步回归分析
一、
逐步回归分析
在一个多元线性回归模
型中,并不是所有的自变量都与因变量有显著关系,有时有些自
变量的作用可以忽略。这
就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影
响的部分自变量的问题
。
在可能自变量的整个集合有
40<
/p>
到
60
个,甚至更多的自变量的那些情况
下,使用“最优”
子集算法可能并不行得通。那么,逐步产生回归模型要含有的
X
变量子集的自动搜索方法,
可能是有效的。逐
步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自
变量子集时,同
所有可能回归的方法比较,为节省计算工作量而产生的。本质上说,这种方
法在每一步增
加或剔除一个
X
变量时,
产生一系列回
归模型。
增加或剔除一个
X
变量的准则
,
可以等价地用误差平方和缩减量、偏相关系数或
F
统计量来表示。
无疑选择自变量要靠有关专业知
识,但是作为起参谋作用的数学工具,往往是不容轻视
的。通常在多元线性模型中,我们
首先从有关专业角度选择有关的为数众多的因子,然后用
数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且
行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归
平方和经检验
是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将
不显著变量剔除,
这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步
以后便得“最优”变
量子集。
逐步回
归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回
归模型中
剔除。
Efroymoson (1966)
编的程序中,
p>
有两个
F
水平,
记
作
F
in
和
F
out
,
在每一步时,
只有一个回归因子,比如说
X
i
,如果剔除它可能引起
RSS
的减少不超过残差均方
MSE
(即
ESS/(N-k-
1
)
)的
F
< br>out
倍,则将它剔除;这就是在当前的回归模型中,用来检验
< br>
?
i
=0
的
F
比
=
(
RSS
(
x
1
,
x
2<
/p>
,
?
x
i
?
1
,
x
i
)
?
RSS
(
x
1
,
x
2
,
?
x
i
?
1
))
/
MSE
是小于或等于
F
out
。
若剔除的变量需要选择,
则就选择使
RSS
减少最少的那一个
(或等价的选择
F
比最小的)
。
用这种方式如果没有变量被剔除,
则开始引进一个回归因子,比如
X
j
,
如果引进它后使
RSS
的增加,至少是残差均方的
F
in
倍,则将它引进。即若在当前模型加
X
j
项后,为了检验
?
j
=0
的
F
比,
F
≥
F
in
时,则引进
X
j
,其次,若引进的变量需要选择,则选择
F
比最大的。程序按
照上面的步骤开始拟合,当没有
回归因子能够引进模型时,该过程停止。
二、
变量选择的方法
若在回归方程中增加
自变量
X
i
,称为“引入”变量
X
i
,将已在回归方程中的自变量
X
j
从
回归方程中删除,
则称为“剔除”变量
X
j
。无论引入变
量或剔除变量,都要利用
F
检验,将
显
著的变量引入回归方程,而将不显著的从回归方程中剔除。记引入变量
F
检验的临界值为
F
in
(进)
,剔除变量
F
检验的临界值为
F
out
(出)
,一般
取
F
in
≥
F
out
,
它的确定原则一般是
对
k
个自变量的<
/p>
m
个
(
m
≤
k
)
,则对显著性水平
df
1
=1
,
df
2
=
N
?
m
?<
/p>
1
的
F
分布表的
值,记
为
F
*
,则取
F
in
=
F
out
=
F
*
。
一般来说也可以直接取
F
p>
in
=
F
out<
/p>
=2.0
或
2.5
。当然,
为了回归方程中
精品文档
精品文档
还能够多进入一些自变量,
甚至也可以取为
1.0
或
1.5
。
1.
变量增加法
首先对全部
k
个自变量,分别对因变量
Y
建立一元回归方程,并分别计算这
k
个一元回
1
1
1
1
归
方
程
的
k
个
回
归
系<
/p>
数
F
检
验
值
,
记
为
{
F
1
,
F
2
,
?
F
k
}
,
选
其
最
大
的<
/p>
记
为
F
i
=
1
1
1
1
max{
F
1
,
F
2
,
?
F
k
},
若有
F
i
≥
F
in
< br>,则首先将
X
1
引入回归方程,
不失一般性,设
X
i
就是
X
1
。
< br>接着考虑
X
1
分别与
X
2
,
X
3
,...,
X
k
与因变量
Y
二元回归方程,对于这
k
-
1
个回归方程中
X
2
,...,
X
p>
k
的回归系数进行
F
检验,
计算得的
F
值,
并选其最大的
F
值
F
j
,
若
F
j
≥
F
in
,
则接着就
将
X
j
引入回归方程,不失一般性,设
X
j
就是
X
2
。
对已经引入回归方程的变量
X
1
和
X
2
,
如同前面的方法做下去,
直至所有末
被引入方程的
变量的
F
值均小于
F
in
时为止。这时的回归方程就是最终选定
的回归方程。
显然,这种增加法有一定的缺点,主要是,它不
能反映后来变化的情况。因为对于某个
自变量,它可能开始是显著的,即将其引入到回归
方程,但是,随着以后其他自变量的引入,
它也可能又变为不显著的了,但是,也并没有
将其及时从回归方程中剔除掉。也就是增加变
量法,只考虑引入而不考虑剔除。
2.
变量减少法
与变量增加法相反,变量
减少法是首先建立全部自变量
X
1
,<
/p>
X
2
,...,
X
k
对因变变量
Y
的回归
1
1
1
方程,然后对
k
个回归系数进行
F
检验,记求得的
F
值为
{
F
1
,
F
2
,
?
F
k
}
,选其最小的记为
2
2
F
i
< br>1
=min{
F
1
1
,
F
2
< br>1
,
?
F
k
1
},
若有
F
i
1
≤
F
out
,则可以考虑将自变量
X
i
从回归方程中剔除掉,不妨
设
X
i
就取为
X
1
。
再对
X
2
,
X
3
,...,
X
k
对因变量
Y
建立的回归方程中重复上述过程,
取最小的
F
值为
F
p>
j
,
若有
2
F
j
2
≤
F
out
,则将
X
j
也从回归方程中剔除掉。不妨设
X
j
就是
X
2
。重复前面的做法,直至在回
归方程中的自变量
F
检验值均大于
F
out
,即没有变量可剔除为止。这时的回归方程就是最终
的回归方程。
这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,
这样计算量
比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算
。
3.
变量增减法
前面的二种方法各有其特
点,
若自变量
X
1
,
X
2
,...,
X
k
完全是独立的,
则可结合这二种方法,
但是,在实际的数据中,自变量
X
1
,
X
2
,...,
X
k
之间往往并不是独立的,而是有一定的相关性存
在的,这就会使得随着回归方程
中变量的增加和减少,某些自变量对回归方程的贡献也会发
生变化。因此一种很自然的想
法是将前二种方法综合起来,也就是对每一个自变量,随着其
对回归方程贡献的变化,它
随时可能被引入回归方程或被剔除出去,最终的回归模型是在回
归方程中的自变量均为显
著的,不在回归方程中的自变量均不显著。
三、
引入变量和剔除变量的依据
精品文档
精品文档
如果在某一步时,已有
p>
l
个变量被引入到回归方程中,不妨设为
X
1
,
X
2
p>
,
?
,
X
l
,即已得
回归方程
?
?
?
p>
?
?
X
?
?
X
?
?
?
?
X
< br>Y
0
1
1
2
2
l
l
并
且有平方和分解式
(33.1)
(33.2)
TSS
?
RSS
?
ESS
显然,回归平方和
RSS
及残差平方和
ESS
均与引入的变量相关。为了使其意义更清楚
起见,将其分别设为
RSS
(
X
p>
1
,
X
2
,
?
,
X
l
)及
ESS
(
X
1
,
X
2
,
?
,
X
l
)
。下面我们来考虑,又
p>
有一个变量
X
i
(
l
≤
k
)
被引入回归方程中,这时对于新的回归方程所对应的平方和分解式
为
TSS
=
< br>RSS
(
X
1
< br>,
X
2
,
?
,
X
l
,
X
i
)
+ <
/p>
ESS
(
X
1<
/p>
,
X
2
,
?
,
X
l
,
X
i
)
(33.3)
当变量
X
i
引入后,回归平方和从
RSS
(
X
1
,
X
2
,
?
,<
/p>
X
l
)增加到
R
SS
(
X
1
,
X
2
,
?
p>
,
X
l
,
X
i
)
,
而相应的残差平方和却从
ESS
(
< br>X
1
,
X
2
,
?
,
X
l
)降到
ESS
(
X
1
,
X
2
,
?
,
p>
X
l
,
X
i
)
,并
有
RSS
(
X
1
,
X
2
,
?
,
< br>X
l
,
X
i
)-
RSS
< br>(
X
1
,
X
2
,
?
,
X
l
)
(33.4)
=
ESS
(
X
1
,
p>
X
2
,
?
,
X
l
)-
ESS
(
X
1
,
X
2
,
?
,
X
l
,
X
i
)
p>
记
W
i
?
RSS
(
X
1
,
X
2
,
?
,
X
l
< br>,
X
i
)
?
RSS
(
X
1
,
X
2
,
?
,
X
l
p>
)
,
它反映了由于引入
X
i
后,
X
i
对
回归平方和的贡献,也等价于引入
X
i
后残差平方和所减少的量,称其为
X
i
对因变量
Y
的
方差贡献,故考虑检验统计量
F
i
?
W
p>
i
?
X
1
,
X
2
,
?
,
X
l
< br>?
ESS
?
< br>X
1
,
X
2
,
?
,
X
l
,
X
i
p>
?
/
?
N
?
l
?
1
?
(33.5)
其中
N<
/p>
为样本量,
l
是已引入回归方程的变量个
数,这时若有
F
i
?
< br>F
in
,
则可以考虑将自变
p>
量
X
i
引入回归方
程,否则不能引入。
实际上大于
F<
/p>
in
的变量开始时可能同时有几个,
那么
是否将它们都全部引入呢?实际编程
序时并不是一起全部引入,而是选其最大的一个引入
回归方程。
关于剔除变量,
如果已有
l
个变量被引入回归方程,
不失一般性
,
设其为
X
1
,
X
2
,
?<
/p>
,
X
l
,
所对应的平方和分解公式为:
TSS
?
RSS
(
X
1
,
X
2
,
?
,
X
i
,
?
,
X
l
)
?
ESS
(
X
1
,
X
2
,
?<
/p>
,
X
i
,
?
X
l
)
(33.6)
其中
i
?
1
,
2
p>
,
?
,
l
为了研究每个变量在回归方程中的作用,我们来考虑分别删掉
X
i
(
i
=1,2,...,
l
精品文档
精品文档
后相应的平方和分解公式为:
TSS
?
RSS
(
X
1
,
X
2
p>
,
?
X
i
?
1
,
X
i
?
1
?
< br>,
X
l
)
?
ESS
(
X
1
,
X
2
,
?
,
X
i
p>
?
1
,
X
i
?
1
?
,
X
l
)
< br>
(33.7)
这时,回归平方和从
< br>RSS
(
X
1
< br>,
X
2
,
?
,
X
i
,
?
,
X
l
p>
)
降为
RSS
(<
/p>
X
1
,
X
2
,
?
X
i
?
1
,
X
i
?
1
?
,
X
l
)
,
同
时
残<
/p>
差
也
发
生
相
应
的
变
化
。
残
差
平
方
和
从
ESS
(
X
1
,
X
2
,
?
,
X
i
,<
/p>
?
X
l
)
增
加
到
ESS
(
X
1
,
X
2
,
?
,
X
i
?
1
,
X
i
?
1
?
,
X<
/p>
l
)
,
X
i
对回归平方和的贡献,也等价于删除
X
p>
i
后残差平方
和所增加的量,同理可表示为
:
W
i
?<
/p>
RSS
(
X
1<
/p>
,
X
2
,
?
,
X
i
,
?
X
l
)
?
RSS
(
X
1
,
X
2
,
?
,
X
i
?
1
,<
/p>
X
i
?
1
?
X
l
)
?
ESS
(
X
1
,
X
2
,
?
,
X
i
?
1
,
X
i
?
1
?<
/p>
X
l
)
?
ESS
(
X
1
,
X
2
,
?
,
X
i
,
?
X
l
)
与前同理,我们来构造检验统计量
(33.8)
F
< br>i
?
W
i
?
X
1
,
X
2
,
?
,
p>
X
i
,
?
,
X
l
?
?
?
?
< br>?
ESS
X
1
< br>,
X
2
,
?
,
X
i
,
?
X
l
/
p>
N
?
l
?
1
(33.9)
显然,这时
< br>F
i
越小,则说明
X
i
在回归方程中起的作用(对回归方程的贡献)越小,也
< br>就是若有
F
i
?
F
out
,
则可以考虑将自变
量
X
i
从回归方程中剔除掉,我们在编
程序时,每次只
剔除一个,因此,我们每次选择最小的
F
i
?
min(
F
p>
1
,
F
2
,
?
,
F
l
)
来与
F
out
进行比较。若有
F
i<
/p>
?
F
out
则可
以不考虑剔除,而开始考虑引入。
四、
逐步回归在使用过程中要注意的问题
逐步回归在计算过程中,进入和剔除变量规则的差别在例子中有可能得到说明。例如,
可
以根据
F
i
统计量中
< br>MSE
的自由度来使用不同的
F
in
和
F
out
。但是,往往并不使用这种提
纯量,
而是使用固定的
F
值,
因为在搜索
过程的重复检验中,
并不可能得到精确的概率解释。
最低可接受
F
in
决不应小于最高可接受
F
out
,否则就有可能重复进入和剔除一个自
变量。
自变量进入模型的顺序并不反映它们的重要程度。例如
,第一个进入模型的
X
1
,最终却
p>
可能被剔除。我们使用的逐步回归程序,在每个阶段上都打印出偏相关系数。对于筛选变量<
/p>
来说,使用这些相关系数与使用
F
i
p>
值是等价的,事实上,有些程序就是使用偏相关系数来筛
选变量的。
进入和剔除一个变量的
F
限不必根据近似显著性水平选定,但
可以根据误差缩减
量来描述性地确定。例如,一个进入变量的
F
限
2.0
可以这样来说明:变量一旦进
入模型,
那么,进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。
逐步回归方法的一个局限是预先假定有单一的最优
X
变量子集,从而来进行识别。正如
前面已经提到的,常常并
没有唯一的最优子集。因此,一些统计学家建议,求得逐步回归的
解后,拟合所有可能与
逐步回归解的自变量个数相同的回归模型,以研究是否存在更好的
X
变量子集。
精品文档
精品文档
逐步回归方法的另一个缺点
是当
X
变量高度相关时,
有时会得到不
合理的
“最优”
子集。
也有人提出好几
种其他寻找“最优”自变量子集的自动搜索方法。我们这里提一下其中的两
种。但这两种
方法都还未被接受为逐步搜索方法。其中之一为向前选元法,这种搜索方法只
是逐步回归
方法的简化,略去了检验进入模型的变量是否应被剔除这一步。其中之二为向后
剔除法,
这种搜索方法与向前选元法相反。它从包括所有
X
变量的模型开
始,挑出
F
*
值最
小的那个变量。例如,假定
X
i
为
F
*
值最小的那个变量,有:
F
i
*
?
*
W
i
?
X
< br>1
,
X
2
,
?
,
X
i
,
?
,
X
p>
k
?
ESS
p>
?
X
1
,
X
2
,
?
,
X
i
,
< br>?
X
k
?
/
?
N
?
k
?
1
?
(33
.10)
如果最小的
F
i
值小于预定限,就剔除这个变量,然后拟合剩余的
k
?
1
个自变量的模型,挑
选下一个待
剔除元。重复这种过程,直至没有自变量可以被剔除。因为向后剔除法是从最大
可能模型
开始的,所以它比向前选元法需要更多的计算量。但是,向后剔除法有一个优点,
它可以
使使用者明白含有许多变量模型的复杂性。
五、
stepwise
逐步回归过程
p>
stepwise
过程对逐步回归提供了九种方法。
当你有许多自变量且想找出哪些自变量是该选
入回归模型时,
< br>stepwise
是有用的。
由于
stepwise
可以使你深入地了解自变量与因变量或响
应变量之间的关系,所以它对考
察分析是很有帮助的。但是,
s
tepwise
并不能保证给你“最好”的模型,甚至具有最大
R
2
的
模型也不一定是“最好”的,并
且靠这些均值演变得来的模型没有一个可以保证它精确地描
述了真实世界的过程。
stepwise
与
rsquare
以及其他过程是不同的。
rsquare
p>
对所有自变量的组合找出
R
2
,所以
它可以指出具有最大
R
2
的模型。而
stepwise<
/p>
在挑选变量时选择下面描述的方法,所以,当
stepwise<
/p>
判断模型时,它打印一份多个回归报告。
1.
stepwise
过程提供的九种模型
1)
none
(全回归模型)
。没有对回归变量进行筛选,建立
Y
与全部自变量的全回归模型。
2)
forward
(向前选择)
。向前选择技术以模型中没有变量开始,对每个自变量,
forward
计算反映自变量对模型的贡献的
F
统计量。
这些
F
统计量与
model
语句中给出的
slentry
=
水平上的值相比较,
如果
F
统计量的显著水平没有一个比
slentry
=水平上
(如果缺省<
/p>
slentry
=
这个参数,则显著水平假设为
0.50
)的值大,则
forward
停止。否则,
forward
在模型中
加入具有最大
F
统计量的变量,然后
forward
再计算这些变量的
F
统计量直到剩下的变量
都在模型的外面,
再重复估计过程。
变量就这
样一个接一个地进入模型直到剩下的变量没有
一个可以产生显著的
F
统计量。一旦一个变量进入了模型,它就不再出去了。
3)
backward
(向后淘汰)
。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。
然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的
F
统计量的显著
水平在
sls
tay
=
水平上(如果缺省
slstay
= <
/p>
这个参数,则显著水平假设为
0.10
)
。在每一步,
剔除对模型贡献最小的变量。
4)
stepwise
(逐步回归,
向前且向后)
。
逐步方法是向前选择的修正。
对已在模型中的变量,
不
一定必须一直在模型中,这点与向前选择法是不同的。
stepwise
按照向前选择方法选入变
量后,还考察模型中所包含的所有变量并剔除使得
p>
F
统计量的显著水平不在
slstay<
/p>
=
水平上
精品文档
精品文档
的变量。
只有在完成检验和必要的剔除之后,
其他变量才可再进入模型。
当模型外的变量没
有一个使
F
统计量的显著在
slentry
= <
/p>
水平上且模型中的每个变量在
slstay
=
水平上显著,
或
加到模型中的变
量是刚刚剔除的变量时候,逐步处理便结束了。
5)
maxr
(具有对偶切换的向前选择)
。最大
R
2
改良技术是占优势的逐步技术,它几乎与
所有可能的回归一样好。
不象上面三种技术,
这个方法
不是落在单个模型上,
而是试着找出
最佳一变量模型、最佳二变
量模型等等,但它不能保证对每个量度都能找到具有最大
R
2<
/p>
的
模型。
ma
xr
方法先找出一个产生最大
R
2
p>
值的变量,然后再加入另一个次最大
R
2<
/p>
值的变量,从
而形成二变量的模型。形成二变量的模型之后,将模
型中的变量与模型外的变量相比较,以
决定是否移去一个变量而以另一个能生成更大
p>
R
2
值的变量来
代替。
全部比较结束后,
便得到
了最佳
二变量模型。依次往下,便得到最佳三变量模型等等。
6)
minr
(具有对偶搜索的向前选择)
。最小
R
2
增量法非常类似于
maxr
p>
,只是选择准则为
产生最小
R
2
增量。对模型中一个已知的变量数,
maxr
p>
和
minr
通常产生同样的“最佳”模
p>
型,但是
minr
在每步中考虑较多的模型
。
7)
r
square
(
R
2
< br>选择法)
。按给定样本的
R
2<
/p>
大小准则选择最优的自变量子集,但不能保证
对总体或其他样本而
言是最优的。
用户可以规定出现在子集中自变量的最大和最小个数及被
< br>选择的每种子集的个数。
R
2
选
择法总能够对所考虑变量的每种变量个数找到具有最大
R
2
p>
的
模型,但需要很多的计算时间。
8)
adjrsq
< br>(修正
R
2
选择法)
。
该方法类似于
rsquare
< br>法,
只是对于选择模型使用的准则为修
正
R
2
统计量。修正公式见
(3
2.27)
式。
9)
Mallows
的
C
p
统计量。
C
p
统计量是由
Mallo
ws
提出的作为选择模型的判别式的变量。
C
< br>p
是一个误差平方总和的量度:
C
P
?
ESS
p
MSE
?
(
N
?
2
P
)
(33.11)
其中,
P
是模型中包括截距项的参数个数,
MSE
是满模型时均方误差,
ESS
p
是具有
P
个
自变量(包括截
距项)回归模型的误差平方和。作
C
p
与
P
的曲线图,
Matlows
建议取
C
p
首
次接近
P
的地方的
模型。
2.
proc
stepwise
过程控制语句
p>
stepwise
过程一般由下列语句控制:
proc stepwise
data=
数据集
;
model
因变量=自变量
选项列表
>;
weight
变量
by
变量
run
stepwise
至少需要一个
p>
model
语句。
by
语句和
weight
语句可以放在任何地方。
1)
model
语句的
选项列表
>
。
stepwise
中可以有任意多
个
model
语句。
model
语句中的选
项如下:
?
noint
——
不产生一般在模型中自动生成的截距参数。
?
none
——
请求全回归模型。
?
forward
< br>或
f
——
请求向前选择法。
p>
?
backw
ard
或
b
——
请求向后淘汰法。
精品文档
-
-
-
-
-
-
-
-
-
上一篇:多重比较统计方法
下一篇:PEP小学英语 六年级下册教材分析精讲