关键词不能为空

当前您在: 主页 > 英语 >

(整理)SAS讲义第三十三课逐步回归分析.

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-08 19:18
tags:

-

2021年2月8日发(作者:blackmail)


精品文档



第三十三课



逐步回归分析



一、



逐步回归分析



在一个多元线性回归模 型中,并不是所有的自变量都与因变量有显著关系,有时有些自


变量的作用可以忽略。这 就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影


响的部分自变量的问题 。



在可能自变量的整个集合有


40< /p>



60


个,甚至更多的自变量的那些情况 下,使用“最优”


子集算法可能并不行得通。那么,逐步产生回归模型要含有的


X


变量子集的自动搜索方法,


可能是有效的。逐 步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自


变量子集时,同 所有可能回归的方法比较,为节省计算工作量而产生的。本质上说,这种方


法在每一步增 加或剔除一个


X


变量时,


产生一系列回 归模型。


增加或剔除一个


X


变量的准则 ,


可以等价地用误差平方和缩减量、偏相关系数或


F

< p>
统计量来表示。



无疑选择自变量要靠有关专业知 识,但是作为起参谋作用的数学工具,往往是不容轻视


的。通常在多元线性模型中,我们 首先从有关专业角度选择有关的为数众多的因子,然后用


数学方法从中选择适当的子集。 本节介绍的逐步回归法就是人们在实际问题中常用的,并且


行之有效的方法。

< p>


逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归 平方和经检验


是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将 不显著变量剔除,


这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步 以后便得“最优”变


量子集。



逐步回 归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回


归模型中 剔除。


Efroymoson (1966)


编的程序中,


有两个


F


水平,


记 作


F


in



F


out



在每一步时,


只有一个回归因子,比如说


X


i


,如果剔除它可能引起


RSS


的减少不超过残差均方


MSE


(即


ESS/(N-k-


1


)


)的


F

< br>out


倍,则将它剔除;这就是在当前的回归模型中,用来检验

< br>



?


i


=0



F



=


(


RSS


(


x


1


,


x


2< /p>


,


?


x


i


?


1


,


x

< p>
i


)


?


RSS

< p>
(


x


1


,


x


2


,


?

x


i


?


1


))


/


MSE


是小于或等于

< p>
F


out



< p>
若剔除的变量需要选择,


则就选择使


RSS


减少最少的那一个


(或等价的选择


F


比最小的)



用这种方式如果没有变量被剔除, 则开始引进一个回归因子,比如


X


j


, 如果引进它后使


RSS


的增加,至少是残差均方的


F


in


倍,则将它引进。即若在当前模型加


X


j


项后,为了检验



?


j


=0



F


比,


F



F


in


时,则引进

X


j


,其次,若引进的变量需要选择,则选择


F


比最大的。程序按


照上面的步骤开始拟合,当没有 回归因子能够引进模型时,该过程停止。



二、



变量选择的方法



若在回归方程中增加 自变量


X


i


,称为“引入”变量


X


i


,将已在回归方程中的自变量

< p>
X


j



回归方程中删除, 则称为“剔除”变量


X


j


。无论引入变 量或剔除变量,都要利用


F


检验,将


显 著的变量引入回归方程,而将不显著的从回归方程中剔除。记引入变量


F


检验的临界值为


F


in


(进)


,剔除变量


F


检验的临界值为


F


out


(出)


,一般 取


F


in





F


out


, 它的确定原则一般是



k


个自变量的< /p>


m



(


m




k


)

< p>
,则对显著性水平


df


1


=1



df


2


=


N


?


m


?< /p>


1



F


分布表的 值,记



F


*


,则取


F


in


=


F


out


=


F

*



一般来说也可以直接取


F


in


=


F


out< /p>


=2.0



2.5


。当然,


为了回归方程中


精品文档



精品文档



还能够多进入一些自变量, 甚至也可以取为


1.0



1.5




1.



变量增加法



首先对全部


k


个自变量,分别对因变量


Y


建立一元回归方程,并分别计算这


k


个一元回


1


1


1


1





k





系< /p>



F







< p>
{


F


1


,


F


2


,


?

F


k


}







的< /p>




F


i



=


1


1


1


1


max{


F


1


,


F


2

< p>
,


?


F


k


},


若有


F


i




F


in

< br>,则首先将


X


1


引入回归方程, 不失一般性,设


X


i


就是


X


1



< br>接着考虑


X


1


分别与

< p>
X


2


,


X


3


,...,


X


k

< p>
与因变量


Y


二元回归方程,对于这


k



1


个回归方程中


X


2


,...,


X


k


的回归系数进行


F


检验,


计算得的


F


值,


并选其最大的


F



F


j


,



F

< p>
j



F


in


,


则接着就



X

< p>
j


引入回归方程,不失一般性,设


X


j


就是


X


2




对已经引入回归方程的变量


X


1



X


2



如同前面的方法做下去,


直至所有末 被引入方程的


变量的


F


值均小于


F


in


时为止。这时的回归方程就是最终选定 的回归方程。



显然,这种增加法有一定的缺点,主要是,它不 能反映后来变化的情况。因为对于某个


自变量,它可能开始是显著的,即将其引入到回归 方程,但是,随着以后其他自变量的引入,


它也可能又变为不显著的了,但是,也并没有 将其及时从回归方程中剔除掉。也就是增加变


量法,只考虑引入而不考虑剔除。



2.



变量减少法



与变量增加法相反,变量 减少法是首先建立全部自变量


X


1


,< /p>


X


2


,...,


X


k


对因变变量


Y

的回归


1


1


1

方程,然后对


k


个回归系数进行


F


检验,记求得的


F


值为


{


F


1


,

F


2


,


?


F


k


}


,选其最小的记为


2


2


F


i

< br>1


=min{


F


1


1


,


F


2

< br>1


,


?


F


k


1


},


若有


F


i


1



F


out


,则可以考虑将自变量


X


i


从回归方程中剔除掉,不妨



X


i


就取为


X


1




再对


X


2


,


X

3


,...,


X


k


对因变量


Y


建立的回归方程中重复上述过程,


取最小的


F


值为


F


j



若有


2


F


j


2


< p>
F


out


,则将


X


j


也从回归方程中剔除掉。不妨设


X


j


就是


X


2

< p>
。重复前面的做法,直至在回


归方程中的自变量


F


检验值均大于


F


out


,即没有变量可剔除为止。这时的回归方程就是最终


的回归方程。



这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程, 这样计算量


比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算 。



3.



变量增减法



前面的二种方法各有其特 点,


若自变量


X


1

,


X


2


,...,


X


k



完全是独立的,


则可结合这二种方法,


但是,在实际的数据中,自变量


X


1


,


X

2


,...,


X


k


之间往往并不是独立的,而是有一定的相关性存


在的,这就会使得随着回归方程 中变量的增加和减少,某些自变量对回归方程的贡献也会发


生变化。因此一种很自然的想 法是将前二种方法综合起来,也就是对每一个自变量,随着其


对回归方程贡献的变化,它 随时可能被引入回归方程或被剔除出去,最终的回归模型是在回


归方程中的自变量均为显 著的,不在回归方程中的自变量均不显著。



三、



引入变量和剔除变量的依据



精品文档



精品文档



如果在某一步时,已有


l


个变量被引入到回归方程中,不妨设为


X


1


,


X


2


,


?


,


X


l


,即已得


回归方程




?


?


?


?


?


X


?


?


X


?


?


?


?


X


< br>Y


0


1


1


2


2


l


l


并 且有平方和分解式



(33.1)


(33.2)


TSS


?


RSS


?


ESS



显然,回归平方和


RSS


及残差平方和


ESS


均与引入的变量相关。为了使其意义更清楚


起见,将其分别设为


RSS



X


1


,


X


2


,


?


,


X


l


)及


ESS


< p>
X


1


,


X


2


,


?


,

X


l



。下面我们来考虑,又


有一个变量


X


i



l



k


) 被引入回归方程中,这时对于新的回归方程所对应的平方和分解式



TSS



=

< br>RSS



X


1

< br>,


X


2


,


?


,


X


l



X


i



+ < /p>


ESS



X


1< /p>


,


X


2


,


?


,


X


l

< p>
,


X


i




(33.3)


当变量


X


i


引入后,回归平方和从


RSS


X


1


,


X


2


,


?


,< /p>


X


l


)增加到


R SS



X


1


,


X


2


,


?


,


X


l



X


i



,


而相应的残差平方和却从


ESS


< br>X


1


,


X


2


,


?


,


X


l


)降到


ESS



X


1


,


X


2


,


?


,


X


l


,


X


i


)


,并





RSS


(


X


1


,


X


2


,


?


,

< br>X


l



,

X


i


)-


RSS

< br>(


X


1


,


X


2


,


?


,


X


l


)


(33.4)


=


ESS


(


X


1


,


X


2


,


?


,


X


l


)-

< p>
ESS


(


X


1

< p>
,


X


2


,


?


,


X


l


,


X


i


)




W


i


?


RSS


(


X


1


,


X


2


,


?


,


X


l

< br>,


X


i


)


?


RSS


(


X


1


,


X


2


,


?


,


X


l


)


,


它反映了由于引入

X


i


后,


X


i



回归平方和的贡献,也等价于引入


X


i


后残差平方和所减少的量,称其为


X


i


对因变量


Y


方差贡献,故考虑检验统计量




F


i


?


W


i


?


X


1


,


X


2


,


?


,


X


l

< br>?



ESS


?

< br>X


1


,


X


2


,


?


,


X


l


,


X


i


?


/


?


N


?


l


?


1


?


(33.5)


其中


N< /p>


为样本量,


l


是已引入回归方程的变量个 数,这时若有


F


i


?

< br>F


in



则可以考虑将自变



X


i


引入回归方 程,否则不能引入。



实际上大于


F< /p>


in


的变量开始时可能同时有几个,


那么 是否将它们都全部引入呢?实际编程


序时并不是一起全部引入,而是选其最大的一个引入 回归方程。



关于剔除变量,


如果已有


l


个变量被引入回归方程,


不失一般性 ,


设其为


X


1


,


X


2


,


?< /p>


,


X


l



所对应的平方和分解公式为:



TSS


?


RSS


(


X


1


,


X


2

< p>
,


?


,


X


i


,


?


,

X


l


)


?


ESS


(


X


1


,


X


2


,


?< /p>


,


X


i


,


?


X


l


)

< p>


(33.6)


其中


i


?


1


,


2


,


?


,


l


为了研究每个变量在回归方程中的作用,我们来考虑分别删掉


X


i



(


i


=1,2,...,


l


精品文档


精品文档



后相应的平方和分解公式为:



TSS


?


RSS


(


X


1


,


X


2


,


?


X


i


?


1


,


X


i


?


1


?

< br>,


X


l


)


?


ESS


(


X


1


,


X


2


,


?


,


X


i


?


1


,


X


i


?


1


?


,


X


l


)

< br>


(33.7)


这时,回归平方和从

< br>RSS


(


X


1

< br>,


X


2


,


?


,


X


i


,


?


,


X


l


)


降为


RSS


(< /p>


X


1


,


X


2


,


?


X

< p>
i


?


1


,


X


i


?


1

?


,


X


l


)


,




残< /p>









< p>








ESS


(


X


1

,


X


2


,


?


,


X


i


,< /p>


?


X


l


)





ESS


(


X


1


,

< p>
X


2


,


?


,


X


i


?

1


,


X


i


?


1


?


,


X< /p>


l


)



X


i


对回归平方和的贡献,也等价于删除


X


i


后残差平方


和所增加的量,同理可表示为 :



W


i


?< /p>


RSS


(


X


1< /p>


,


X


2


,


?


,


X


i

< p>
,


?


X


l


)


?


RSS


(


X


1


,


X

2


,


?


,


X


i


?


1


,< /p>


X


i


?


1


?


X


l


)

< p>
?


ESS


(


X

< p>
1


,


X


2


,


?


,


X

i


?


1


,


X


i


?


1


?< /p>


X


l


)


?


ESS


(


X


1


,


X


2


,

< p>
?


,


X


i


,


?


X


l

)


与前同理,我们来构造检验统计量




(33.8)


F

< br>i


?


W


i


?


X


1


,


X


2


,


?


,


X


i


,


?


,


X


l


?



?


?


?

< br>?


ESS


X


1

< br>,


X


2


,


?


,


X


i


,


?


X


l


/


N


?


l


?


1


(33.9)


显然,这时

< br>F


i


越小,则说明


X

< p>
i


在回归方程中起的作用(对回归方程的贡献)越小,也

< br>就是若有


F


i


?


F


out


,


则可以考虑将自变 量


X


i


从回归方程中剔除掉,我们在编 程序时,每次只


剔除一个,因此,我们每次选择最小的


F


i


?


min(


F


1


,


F


2


,


?


,


F


l


)


来与


F


out


进行比较。若有


F


i< /p>


?


F


out


则可 以不考虑剔除,而开始考虑引入。



四、



逐步回归在使用过程中要注意的问题



逐步回归在计算过程中,进入和剔除变量规则的差别在例子中有可能得到说明。例如,


可 以根据


F


i


统计量中

< br>MSE


的自由度来使用不同的


F


in



F


out



。但是,往往并不使用这种提


纯量,


而是使用固定的


F


值,


因为在搜索 过程的重复检验中,


并不可能得到精确的概率解释。


最低可接受


F


in


决不应小于最高可接受


F


out


,否则就有可能重复进入和剔除一个自 变量。



自变量进入模型的顺序并不反映它们的重要程度。例如 ,第一个进入模型的


X


1


,最终却


可能被剔除。我们使用的逐步回归程序,在每个阶段上都打印出偏相关系数。对于筛选变量< /p>


来说,使用这些相关系数与使用


F


i


值是等价的,事实上,有些程序就是使用偏相关系数来筛


选变量的。 进入和剔除一个变量的


F


限不必根据近似显著性水平选定,但 可以根据误差缩减


量来描述性地确定。例如,一个进入变量的


F



2.0


可以这样来说明:变量一旦进 入模型,


那么,进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。

< p>


逐步回归方法的一个局限是预先假定有单一的最优


X


变量子集,从而来进行识别。正如


前面已经提到的,常常并 没有唯一的最优子集。因此,一些统计学家建议,求得逐步回归的


解后,拟合所有可能与 逐步回归解的自变量个数相同的回归模型,以研究是否存在更好的


X

变量子集。



精品文档



精品文档



逐步回归方法的另一个缺点 是当


X


变量高度相关时,


有时会得到不 合理的


“最优”


子集。


也有人提出好几 种其他寻找“最优”自变量子集的自动搜索方法。我们这里提一下其中的两


种。但这两种 方法都还未被接受为逐步搜索方法。其中之一为向前选元法,这种搜索方法只


是逐步回归 方法的简化,略去了检验进入模型的变量是否应被剔除这一步。其中之二为向后


剔除法, 这种搜索方法与向前选元法相反。它从包括所有


X


变量的模型开 始,挑出


F


*



值最


小的那个变量。例如,假定


X


i



F


*



值最小的那个变量,有:



F


i


*


?


*


W


i


?


X

< br>1


,


X


2


,


?


,


X


i


,


?


,


X


k


?



ESS


?


X


1


,


X


2


,


?


,


X


i


,

< br>?


X


k


?


/


?


N


?


k


?


1


?


(33 .10)


如果最小的


F


i

< p>
值小于预定限,就剔除这个变量,然后拟合剩余的


k


?


1


个自变量的模型,挑


选下一个待 剔除元。重复这种过程,直至没有自变量可以被剔除。因为向后剔除法是从最大


可能模型 开始的,所以它比向前选元法需要更多的计算量。但是,向后剔除法有一个优点,


它可以 使使用者明白含有许多变量模型的复杂性。



五、



stepwise


逐步回归过程



stepwise


过程对逐步回归提供了九种方法。


当你有许多自变量且想找出哪些自变量是该选


入回归模型时,

< br>stepwise


是有用的。



由于


stepwise


可以使你深入地了解自变量与因变量或响 应变量之间的关系,所以它对考


察分析是很有帮助的。但是,


s tepwise


并不能保证给你“最好”的模型,甚至具有最大


R


2



模型也不一定是“最好”的,并 且靠这些均值演变得来的模型没有一个可以保证它精确地描


述了真实世界的过程。



stepwise



rsquare


以及其他过程是不同的。


rsquare


对所有自变量的组合找出


R


2



,所以


它可以指出具有最大


R


2


的模型。而


stepwise< /p>


在挑选变量时选择下面描述的方法,所以,当


stepwise< /p>


判断模型时,它打印一份多个回归报告。



1.



stepwise


过程提供的九种模型



1)



none


(全回归模型)


。没有对回归变量进行筛选,建立


Y


与全部自变量的全回归模型。



2)



forward


(向前选择)


。向前选择技术以模型中没有变量开始,对每个自变量,


forward


计算反映自变量对模型的贡献的


F



统计量。


这些


F

统计量与


model


语句中给出的


slentry



水平上的值相比较,


如果


F



统计量的显著水平没有一个比


slentry


=水平上


(如果缺省< /p>


slentry



这个参数,则显著水平假设为


0.50


)的值大,则


forward


停止。否则,


forward


在模型中


加入具有最大


F



统计量的变量,然后


forward


再计算这些变量的


F


统计量直到剩下的变量


都在模型的外面,


再重复估计过程。


变量就这 样一个接一个地进入模型直到剩下的变量没有


一个可以产生显著的


F


统计量。一旦一个变量进入了模型,它就不再出去了。



3)



backward


(向后淘汰)


。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。


然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的


F


统计量的显著


水平在


sls tay


=


水平上(如果缺省


slstay


= < /p>


这个参数,则显著水平假设为


0.10



。在每一步,


剔除对模型贡献最小的变量。


4)



stepwise


(逐步回归,


向前且向后)



逐步方法是向前选择的修正。


对已在模型中的变量,


不 一定必须一直在模型中,这点与向前选择法是不同的。


stepwise


按照向前选择方法选入变


量后,还考察模型中所包含的所有变量并剔除使得


F


统计量的显著水平不在


slstay< /p>


=


水平上


精品文档



精品文档



的变量。


只有在完成检验和必要的剔除之后,


其他变量才可再进入模型。


当模型外的变量没


有一个使


F


统计量的显著在


slentry


= < /p>


水平上且模型中的每个变量在


slstay


=


水平上显著,



加到模型中的变 量是刚刚剔除的变量时候,逐步处理便结束了。



5)



maxr


(具有对偶切换的向前选择)


。最大


R


2



改良技术是占优势的逐步技术,它几乎与


所有可能的回归一样好。


不象上面三种技术,


这个方法 不是落在单个模型上,


而是试着找出


最佳一变量模型、最佳二变 量模型等等,但它不能保证对每个量度都能找到具有最大


R


2< /p>



模型。



ma xr


方法先找出一个产生最大


R


2


值的变量,然后再加入另一个次最大


R


2< /p>


值的变量,从


而形成二变量的模型。形成二变量的模型之后,将模 型中的变量与模型外的变量相比较,以


决定是否移去一个变量而以另一个能生成更大


R


2



值的变量来 代替。


全部比较结束后,


便得到


了最佳 二变量模型。依次往下,便得到最佳三变量模型等等。



6)



minr


(具有对偶搜索的向前选择)


。最小


R


2



增量法非常类似于


maxr


,只是选择准则为


产生最小


R


2


增量。对模型中一个已知的变量数,


maxr



minr


通常产生同样的“最佳”模


型,但是


minr


在每步中考虑较多的模型 。



7)



r square



R


2

< br>选择法)


。按给定样本的


R


2< /p>


大小准则选择最优的自变量子集,但不能保证


对总体或其他样本而 言是最优的。


用户可以规定出现在子集中自变量的最大和最小个数及被

< br>选择的每种子集的个数。


R


2


选 择法总能够对所考虑变量的每种变量个数找到具有最大


R


2



模型,但需要很多的计算时间。



8)



adjrsq

< br>(修正


R


2


选择法)

< p>


该方法类似于


rsquare

< br>法,


只是对于选择模型使用的准则为修



R


2


统计量。修正公式见


(3 2.27)


式。



9)



Mallows



C


p


统计量。


C


p


统计量是由


Mallo ws


提出的作为选择模型的判别式的变量。


C

< br>p


是一个误差平方总和的量度:



C


P


?


ESS


p


MSE


?


(


N


?


2


P


)



(33.11)


其中,

< p>
P


是模型中包括截距项的参数个数,


MSE


是满模型时均方误差,


ESS


p


是具有


P



自变量(包括截 距项)回归模型的误差平方和。作


C


p



P


的曲线图,


Matlows


建议取


C


p




次接近


P


的地方的 模型。



2.



proc stepwise


过程控制语句








stepwise


过程一般由下列语句控制:




proc stepwise




data=


数据集


;


model


因变量=自变量



选项列表


>;


weight


变量



by


变量



run



stepwise


至少需要一个


model


语句。


by

语句和


weight


语句可以放在任何地方。



1)



model


语句的



选项列表


>



stepwise


中可以有任意多 个


model


语句。


model


语句中的选


项如下:



?



noint


——


不产生一般在模型中自动生成的截距参数。



?



none


——


请求全回归模型。



?



forward

< br>或


f


——


请求向前选择法。



?



backw ard



b


——


请求向后淘汰法。



精品文档


-


-


-


-


-


-


-


-



本文更新与2021-02-08 19:18,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/616413.html

(整理)SAS讲义第三十三课逐步回归分析.的相关文章