关键词不能为空

当前您在: 主页 > 英语 >

(完整版)主成分分析在STATA中的实现以及理论介绍

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-10 05:32
tags:

-

2021年2月10日发(作者:stampede)


第十二章



主成分分析



主成分分分析也称作主分量分析,是霍特林


(Hotellin g)



1933


年首先提出。


主成分分析是利用降维的思想,


在损失较少信息的前提

< br>下把多个指标转化为较少的综合指标。


转化生成的综合指标即称为主


成分,


其中每个主成分都是原始变量的线性组合,


且 各个主成分互不


相关。


Stata


对主 成分分析的主要内容包括:主成分估计、主成分分


析的恰当性(包括负偏协方差矩阵和负 偏相关系数矩阵、


KMO(Kaiser-Meyer-Olkin)

< br>抽样充分性、复相关系数、共同度等指标


测度)


、主成分 的旋转、预测、各种检验、碎石图、得分图、载荷图


等。




y


ij


?


a


i


'


b


j


?


?


ij< /p>


,


i


?


1


,


2


,


?

< p>
,


n


j


?


1


,


2


,

?


,


p



主成分的模型表达式为:



C


?


V


?


V


?


?


v


i

< br>?


v


j


?


0


?


?


diag

(


?


1


,


?


2


,


?


,< /p>


?


p


),


?


1


?


?


2


?


?


?


?


p


p


i


?

< br>1


?


i


v


i


v


i


?



其中,


a


称为得分,

< br>b


称为载荷。主成分分析主要的分析方法是


对相关系数矩 阵(或协方差矩阵)进行特征值分析。



Stata

< p>
中可以通过负偏相关系数矩阵、负相关系数平方和


KMO

< br>值


对主成分分析的恰当性进行分析。


负偏相关系数矩阵即 变量之间两两


偏相关系数的负数。


非对角线元素则为负的偏相关 系数。


如果变量之


间存在较强的共性,则偏相关系数比较低。因 此,如果矩阵中偏相关


系数较高的个数比较多,


说明某一些变量 与另外一些变量的相关性比


较低,主成分模型可能不适用。这时,主成分分析不能得到很 好的数


据约化效果。



Kaiser- Meyer-Olkin


抽样充分性测度也是用于测量变量之间相


关关系的强弱的重要指标,


是通过比较两个变量的相关系数与偏相关

< br>系数得到的。


KMO


介于


0



1


之间。


KMO


越高,表明变量的共性越强。


如果偏相关系数相对于相关系数比 较高,



KMO


比较低,


主成分分析


不能起到很好的数据约化效果。根据


Ka iser



1974



,一般的判断标


准如下:


0.00-0.49,


不能接受(


unacceptable



;0.50-0.59,


非常差



miserable




0.60-0.69


,勉强接受(


mediocre




0.70-0.79,

可以


接受(


middling


)< /p>



0.80-0.89


,比较好(


meritorious




0.90-1.00,


非常好(


marvelous< /p>





SMC< /p>


即一个变量与其他所有变量的复相关系数的平方,也就是复


回归方 程的可决系数。


SMC


比较高表明变量的线性关系越强,共性越


强,主成分分析就越合适。



成分载荷 、


KMO



SMC

等指标都可以通过


extat


命令进行分析。



多元方差分析是方差分析在多元中的扩展,


即模型 含有多个响应


变量。本章介绍多元(协)方差分析以及霍特林(


Hotelling)


均值向



T


检验。



12.1


主成分估计



Stata


可以通过变量进行主成分分析,也可以直接通过相关系数


矩阵或协方差矩阵进 行。




1



sysuse auto,clear


pca trunk weight length headroom


pca trunk weight length headroom, comp(2) covariance




2



webus e bg2,clear


pca bg2cost*, vce(normal)



12.2 Estat


estat


给出了几个非常有用的工具,包括


KMO



SMC


等指标。



webuse bg2,clear


pca bg2cost*, vce(normal)


estat anti


estat kmo


estat loadings


estat residuals


estat smc


estat summarize


12.3


预测



Stata

可以通过


predict


预测变量得分、拟合值和残差等。



webuse bg2,clear


pca bg2cost*, vce(normal)


predict score fit residual q

< br>(备注:


q


代表残差的平方和)



12.4


碎石图


< br>碎石图是判断保留多少个主成分的重要方法。


命令为


sc reeplot




webuse bg2,clear


pca bg2cost*, vce(normal)


screeplot


Scree plot of eigenvalues after pca


2


E

< p>
i


g


e


n


v


a


l


u

e


s


1


.


5


.


5


1


1< /p>


2


3


Number


4


5


6




12.5


得分图、载荷图



得分图即不同主成分得分的散点图。命令为


scoreplot




webuse bg2,clear


pca bg2cost*, vce(normal)


scoreplot


Score variables (p ca)


4


S


c


o


r


e


s



f


o


r



c


o


m


p


o


n


e


n


t



2


-

< br>4


-


2


0


2


-6


-4


0


-2


Scores for component 1


2


4



< /p>


载荷图即不同主成分载荷的散点图。命令为


loadingplo t




webuse bg2,clear


pca bg2cost*, vce(normal)


loadingplot


Component loadin gs


.


6


bg2cost1

< p>
.


5


C


o


m


p


o


n

e


n


t



2


bg2cost3


bg2cost2


.


4


bg2cost5


bg2cost 6


.


3


bg2cost4


-.4


-.2


0


.2


Component 1


.4


.6




12.6


旋转


对载荷进行旋转的命令格式为


rotate




webuse bg2,clear


pca bg2cost*, vce(normal)


rotate






:对中国


30


个省市自治区经济发展基本情 况的八项指标主成


分分析,原始数据如下表:




居民


商品


固 定


居民


资产


GDP


消费


省份



(


亿元)



水 平


投资


工资


(




(


亿


元< /p>


)


平均




指数



指数





职工


周转


价格


价格


总产

货物


消费


零售


工业


(


亿


(


亿吨

< br>(



(


元)


(元)




)


公里


)



100)


100)


area







x1


x2


x3


3814.


56328


758.9


03


6


7


1


4


x4


x5


x6


x7


x8


10413


10488.


2034


105.


104.















6354.3


1400


8


16188.


6570


61


6938.7


0


3389.


41748


8


8866.


24756


6


3531.


2703.


105.


105.


12503


4


4


1


23031


5


2


7


2562.

< br>107.


107.


5925.


1 06.


106.


西




内蒙















黑龙
























3


7761.8


13461.


57


6424.0


6


8310


13698.


15


30312.


61


21486.


92


8874.1


7


6187


2


5475.


8108


4


10019


9625


.1


5038.


7591


9


7039


3656


2734


4823.


3


1


1101


15300


3


.6


1389


9323


3


6377


6747


25828


26114


27729


23486


23046


56565


31667


34146


26363


2


3658.


7


7033.


9


1157.


8


1690.


9


16029


.8


4300.


9


4974.


9


5843.


2


2


2


105.


104.


7


7


104.


105.


6


3


105.


106.


1


2


105.


105.


6


8


105.


105.


8


3


105.


104.


4


9


106.


105


3


106.


106.


2


3


10024


8740.


2


24769


8406.


9


7624.


5


25121


67799


40832


11162










西






10823.


1036


11


6480.3


5753


3


31072.


1


5207.


25702


7


4745.


21000


4


15435


2396.


104.


105.


15213


2


2285.


106


5


1


6


10107

< br>105.


104.


6


7


106.


8499.



06





18407.




78





11330.




38





11156.




64



广



35696.




46



广



7171.5


西



8





1459.2




3





5096.6




6





12506.




25


9573


.9


10490


5877


.6


7406


5647


7145


5534


1439


10868


0


.7


3756.


6103


4


6550


705.4


3979.


9835


6


7127.


6072


8


26404


24816


22739


24870


33110


25660


21864


26985


25038


.8


5165.


1


2526.


4


2349.


8


4428.


4


2079


597.7


1490.


3


1578.


7


3


9


107.


107


5


106.


106.


3


3


105.


106


6


105.


106


6


107.


107.


8


6


106.


106.


9


7


105.


105


6


105.


105.


1


3


62959


26028


13455


11553


65425


6072


1103.


1


5755.


9


14762





3333.4


4426







5700.1


4553




1864.


24602


805.3


5


3435.


24030


821.3


9


107.

< p>
107.


3111.


6


2


1


105.

106.


5144.


7


1


6



西



395.91


3504


309.9


47280







6851.3


4614.


6290


25942


西



2


4





3176.1


1712.


4869


24017




1


8





961.53


5830


583.2


30983







1098.5


7193


828.9


30719




1





4203.4


5542


2260


24687




1


数据



: 来源于


2009


年《中国统计年鉴》



程序




clear



*


定义变量的标签



105.


35.5


7


106.


2027


4


108.


9


2


110.


1


108.


5


108.


1273


1


103.


48.19


9


106.


7480.


9


8


107.


3667.


9


5


110.


1103.


6


1


108.


1366.


5


5


108.


4276.


5


1


1594.


335.7


703.6



label var area


省份



label var x1


亿元)



label var x2


居民消费水平


(


元)



label var x3


固定资 产投资


(


亿元


)


label var x4


职工平均工资(元)



label var x5


货物周转量


(


亿吨公里


)


label var x6


居民消费价格指数


(


上年


100)


label var x7


商品零售价格指数


(


上年


100)


label var x8


工业总产值


(


亿元


)



describe



pca x1-x8 /*


主成分估计


*/



estat kmo /*KMO


检验,越高越好


*/


estat smc /*SMC


检验,值越高越好


*/




screeplot /*


碎石 图(特征值等于


1


处的水平线标示保留主成分的


分界点)


*/



-


-


-


-


-


-


-


-



本文更新与2021-02-10 05:32,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/626749.html

(完整版)主成分分析在STATA中的实现以及理论介绍的相关文章

  • 余华爱情经典语录,余华爱情句子

    余华的经典语录——余华《第七天》40、我不怕死,一点都不怕,只怕再也不能看见你——余华《第七天》4可是我再也没遇到一个像福贵这样令我难忘的人了,对自己的经历如此清楚,

    语文
  • 心情低落的图片压抑,心情低落的图片发朋友圈

    心情压抑的图片(心太累没人理解的说说带图片)1、有时候很想找个人倾诉一下,却又不知从何说起,最终是什么也不说,只想快点睡过去,告诉自己,明天就好了。有时候,突然会觉得

    语文
  • 经典古训100句图片大全,古训名言警句

    古代经典励志名言100句译:好的药物味苦但对治病有利;忠言劝诫的话听起来不顺耳却对人的行为有利。3良言一句三冬暖,恶语伤人六月寒。喷泉的高度不会超过它的源头;一个人的事

    语文
  • 关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

    鲁迅名言名句大全励志1、世上本没有路,走的人多了自然便成了路。下面是我整理的鲁迅先生的名言名句大全,希望对你有所帮助!当生存时,还是将遭践踏,将遭删刈,直至于死亡而

    语文
  • 三国群英单机版手游礼包码,三国群英手机单机版攻略

    三国群英传7五神兽洞有什么用那是多一个武将技能。青龙飞升召唤出东方的守护兽,神兽之一的青龙。玄武怒流召唤出北方的守护兽,神兽之一的玄武。白虎傲啸召唤出西方的守护兽,

    语文
  • 不收费的情感挽回专家电话,情感挽回免费咨询

    免费的情感挽回机构(揭秘情感挽回机构骗局)1、牛牛(化名)向上海市公安局金山分局报案,称自己为了挽回与女友的感情,被一家名为“实花教育咨询”的情感咨询机构诈骗4万余元。

    语文