关键词不能为空

当前您在: 主页 > 英语 >

(完整版)主成分分析在STATA中的实现以及理论介绍

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 05:32
tags:

-

2021年2月10日发(作者:stampede)


第十二章



主成分分析



主成分分分析也称作主分量分析,是霍特林


(Hotellin g)



1933


年首先提出。


主成分分析是利用降维的思想,


在损失较少信息的前提

< br>下把多个指标转化为较少的综合指标。


转化生成的综合指标即称为主


成分,


其中每个主成分都是原始变量的线性组合,


且 各个主成分互不


相关。


Stata


对主 成分分析的主要内容包括:主成分估计、主成分分


析的恰当性(包括负偏协方差矩阵和负 偏相关系数矩阵、


KMO(Kaiser-Meyer-Olkin)

< br>抽样充分性、复相关系数、共同度等指标


测度)


、主成分 的旋转、预测、各种检验、碎石图、得分图、载荷图


等。




y


ij


?


a


i


'


b


j


?


?


ij< /p>


,


i


?


1


,


2


,


?

< p>
,


n


j


?


1


,


2


,

?


,


p



主成分的模型表达式为:



C


?


V


?


V


?


?


v


i

< br>?


v


j


?


0


?


?


diag

(


?


1


,


?


2


,


?


,< /p>


?


p


),


?


1


?


?


2


?


?


?


?


p


p


i


?

< br>1


?


i


v


i


v


i


?



其中,


a


称为得分,

< br>b


称为载荷。主成分分析主要的分析方法是


对相关系数矩 阵(或协方差矩阵)进行特征值分析。



Stata

< p>
中可以通过负偏相关系数矩阵、负相关系数平方和


KMO

< br>值


对主成分分析的恰当性进行分析。


负偏相关系数矩阵即 变量之间两两


偏相关系数的负数。


非对角线元素则为负的偏相关 系数。


如果变量之


间存在较强的共性,则偏相关系数比较低。因 此,如果矩阵中偏相关


系数较高的个数比较多,


说明某一些变量 与另外一些变量的相关性比


较低,主成分模型可能不适用。这时,主成分分析不能得到很 好的数


据约化效果。



Kaiser- Meyer-Olkin


抽样充分性测度也是用于测量变量之间相


关关系的强弱的重要指标,


是通过比较两个变量的相关系数与偏相关

< br>系数得到的。


KMO


介于


0



1


之间。


KMO


越高,表明变量的共性越强。


如果偏相关系数相对于相关系数比 较高,



KMO


比较低,


主成分分析


不能起到很好的数据约化效果。根据


Ka iser



1974



,一般的判断标


准如下:


0.00-0.49,


不能接受(


unacceptable



;0.50-0.59,


非常差



miserable




0.60-0.69


,勉强接受(


mediocre




0.70-0.79,

可以


接受(


middling


)< /p>



0.80-0.89


,比较好(


meritorious




0.90-1.00,


非常好(


marvelous< /p>





SMC< /p>


即一个变量与其他所有变量的复相关系数的平方,也就是复


回归方 程的可决系数。


SMC


比较高表明变量的线性关系越强,共性越


强,主成分分析就越合适。



成分载荷 、


KMO



SMC

等指标都可以通过


extat


命令进行分析。



多元方差分析是方差分析在多元中的扩展,


即模型 含有多个响应


变量。本章介绍多元(协)方差分析以及霍特林(


Hotelling)


均值向



T


检验。



12.1


主成分估计



Stata


可以通过变量进行主成分分析,也可以直接通过相关系数


矩阵或协方差矩阵进 行。




1



sysuse auto,clear


pca trunk weight length headroom


pca trunk weight length headroom, comp(2) covariance




2



webus e bg2,clear


pca bg2cost*, vce(normal)



12.2 Estat


estat


给出了几个非常有用的工具,包括


KMO



SMC


等指标。



webuse bg2,clear


pca bg2cost*, vce(normal)


estat anti


estat kmo


estat loadings


estat residuals


estat smc


estat summarize


12.3


预测



Stata

可以通过


predict


预测变量得分、拟合值和残差等。



webuse bg2,clear


pca bg2cost*, vce(normal)


predict score fit residual q

< br>(备注:


q


代表残差的平方和)



12.4


碎石图


< br>碎石图是判断保留多少个主成分的重要方法。


命令为


sc reeplot




webuse bg2,clear


pca bg2cost*, vce(normal)


screeplot


Scree plot of eigenvalues after pca


2


E

< p>
i


g


e


n


v


a


l


u

e


s


1


.


5


.


5


1


1< /p>


2


3


Number


4


5


6




12.5


得分图、载荷图



得分图即不同主成分得分的散点图。命令为


scoreplot




webuse bg2,clear


pca bg2cost*, vce(normal)


scoreplot


Score variables (p ca)


4


S


c


o


r


e


s



f


o


r



c


o


m


p


o


n


e


n


t



2


-

< br>4


-


2


0


2


-6


-4


0


-2


Scores for component 1


2


4



< /p>


载荷图即不同主成分载荷的散点图。命令为


loadingplo t




webuse bg2,clear


pca bg2cost*, vce(normal)


loadingplot


Component loadin gs


.


6


bg2cost1

< p>
.


5


C


o


m


p


o


n

e


n


t



2


bg2cost3


bg2cost2


.


4


bg2cost5


bg2cost 6


.


3


bg2cost4


-.4


-.2


0


.2


Component 1


.4


.6




12.6


旋转


对载荷进行旋转的命令格式为


rotate




webuse bg2,clear


pca bg2cost*, vce(normal)


rotate






:对中国


30


个省市自治区经济发展基本情 况的八项指标主成


分分析,原始数据如下表:




居民


商品


固 定


居民


资产


GDP


消费


省份



(


亿元)



水 平


投资


工资


(




(


亿


元< /p>


)


平均




指数



指数





职工


周转


价格


价格


总产

货物


消费


零售


工业


(


亿


(


亿吨

< br>(



(


元)


(元)




)


公里


)



100)


100)


area







x1


x2


x3


3814.


56328


758.9


03


6


7


1


4


x4


x5


x6


x7


x8


10413


10488.


2034


105.


104.















6354.3


1400


8


16188.


6570


61


6938.7


0


3389.


41748


8


8866.


24756


6


3531.


2703.


105.


105.


12503


4


4


1


23031


5


2


7


2562.

< br>107.


107.


5925.


1 06.


106.


西




内蒙















黑龙
























3


7761.8


13461.


57


6424.0


6


8310


13698.


15


30312.


61


21486.


92


8874.1


7


6187


2


5475.


8108


4


10019


9625


.1


5038.


7591


9


7039


3656


2734


4823.


3


1


1101


15300


3


.6


1389


9323


3


6377


6747


25828


26114


27729


23486


23046


56565


31667


34146


26363


2


3658.


7


7033.


9


1157.


8


1690.


9


16029


.8


4300.


9


4974.


9


5843.


2


2


2


105.


104.


7


7


104.


105.


6


3


105.


106.


1


2


105.


105.


6


8


105.


105.


8


3


105.


104.


4


9


106.


105


3


106.


106.


2


3


10024


8740.


2


24769


8406.


9


7624.


5


25121


67799


40832


11162










西






10823.


1036


11


6480.3


5753


3


31072.


1


5207.


25702


7


4745.


21000


4


15435


2396.


104.


105.


15213


2


2285.


106


5


1


6


10107

< br>105.


104.


6


7


106.


8499.



06





18407.




78





11330.




38





11156.




64



广



35696.




46



广



7171.5


西



8





1459.2




3





5096.6




6





12506.




25


9573


.9


10490


5877


.6


7406


5647


7145


5534


1439


10868


0


.7


3756.


6103


4


6550


705.4


3979.


9835


6


7127.


6072


8


26404


24816


22739


24870


33110


25660


21864


26985


25038


.8


5165.


1


2526.


4


2349.


8


4428.


4


2079


597.7


1490.


3


1578.


7


3


9


107.


107


5


106.


106.


3


3


105.


106


6


105.


106


6


107.


107.


8


6


106.


106.


9


7


105.


105


6


105.


105.


1


3


62959


26028


13455


11553


65425


6072


1103.


1


5755.


9


14762





3333.4


4426







5700.1


4553




1864.


24602


805.3


5


3435.


24030


821.3


9


107.

< p>
107.


3111.


6


2


1


105.

106.


5144.


7


1


6



西



395.91


3504


309.9


47280







6851.3


4614.


6290


25942


西



2


4





3176.1


1712.


4869


24017




1


8





961.53


5830


583.2


30983







1098.5


7193


828.9


30719




1





4203.4


5542


2260


24687




1


数据



: 来源于


2009


年《中国统计年鉴》



程序




clear



*


定义变量的标签



105.


35.5


7


106.


2027


4


108.


9


2


110.


1


108.


5


108.


1273


1


103.


48.19


9


106.


7480.


9


8


107.


3667.


9


5


110.


1103.


6


1


108.


1366.


5


5


108.


4276.


5


1


1594.


335.7


703.6



label var area


省份



label var x1


亿元)



label var x2


居民消费水平


(


元)



label var x3


固定资 产投资


(


亿元


)


label var x4


职工平均工资(元)



label var x5


货物周转量


(


亿吨公里


)


label var x6


居民消费价格指数


(


上年


100)


label var x7


商品零售价格指数


(


上年


100)


label var x8


工业总产值


(


亿元


)



describe



pca x1-x8 /*


主成分估计


*/



estat kmo /*KMO


检验,越高越好


*/


estat smc /*SMC


检验,值越高越好


*/




screeplot /*


碎石 图(特征值等于


1


处的水平线标示保留主成分的


分界点)


*/



-


-


-


-


-


-


-


-



本文更新与2021-02-10 05:32,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/626749.html

(完整版)主成分分析在STATA中的实现以及理论介绍的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
(完整版)主成分分析在STATA中的实现以及理论介绍随机文章