主成分分析在STATA中的实现以及理论介绍_高中生题库网|高考真题|高考试题-「密云二中」

主成分分析在STATA中的实现以及理论介绍

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-10 05:34

tags:

-

2021年2月10日发(作者：release)

第十二章

主成分分析

主成分分分析也称作主分量分析，是霍特林

(Hotelling)

在

1933

年首先提

出。

主成分分析是利用降维的思想，

在损失较少信息的前提下把多个指标转化为

较少的综合指标。

转化生成的综合指标即称为主成分，

其中每个主成分都是原始

变量的线性组合，

且各个主成分互不相关。

Stata

对主成分分析的主要内容包括：

主成分估计、主成分分析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、

KMO (Kaiser-Meyer-Olkin)

抽样充分性、

复相关系数、

共同度等指标测度）

、

主成

分的旋转、预测、各种检验、碎石图、得分图、载荷图等。

ij

,

主成分的模型表达式为：

?

?

1

v

i

?

v

j

?
0

j

?

1

,

2

,

?

,

p

?

?

diag

(

?

1

,

?

2

,

?

,

?

p

),

?

1

?

?

2

?
?

?

?

p

其中，

a

称为得分，

b

称为载荷。主成分分析主要的分析方法是对相关系数

矩阵（或协方差矩阵）进行特征值分析。

Stata

中可以通过负偏相关系数矩阵、

负相关系数平方和

KMO
 值对主成分分

析的恰当性进行分析。

负偏相关系数矩阵即变量之间两两偏相关系数的负数。

非

对角线元素则为负的偏相关系数。

如果变量之间存在较强的共性，

则偏相关系数

比较低。

因此，

如果矩阵中偏相关系数较高的个数比较多，

说明某一些变量与另

外一些变量的相关性比较低，

主成分模型可能不适用。

这时，

主成分分析不能得

到很好的数据约化效果。

Kaiser-Meyer-Olkin

抽样充分性测度也是用于测量变量之间相关关系的强

弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。

KMO

介于

0

于

1

之间。

KMO

越高，表明变量的共性越强。如果偏相关系数相对于相关系数

比较高，

则

KMO

比较低，

主成分分析不能起到很好的数据约化效果。

根据

Kaiser

（

1974

）

，

一般的判断标准如下：

0.00-0.49,

不能接受

（

unacceptable

）

;0.50-0.59,

非常差（
 miserable

）

；

0.6 0-0.69

，勉强接受（

mediocre
 ）

；

0.70-0.79,

可以接受

（

middling

）

；

0.80-0.89

，比较好（

meritorious

）

；

0.90-1.00,

非常好

（

mar velous

）

。

 SMC

即一个变量与其他所有变量的复相关系数的平方，

也就是复回归方程的

可决系数。

SMC

比较高表明变量的线性关系越强，共性越强，主成分分析就越合

适。

成分载荷、

KMO

、

SMC

等指标都可以通过

extat

命令进行分析。

多元方差分析是方差分析在多元中的扩展，

即模型含有多个响应变量。

本章

介绍多元（协）方差分析以及霍特林（

Hotelling)

均值向量

T

检验。

12.1

主成分估计

Stata

可以通过变量进行主成分分析，

也可以直接通过相关系数矩阵或协方

差矩阵进行。

（

1

）

sysuse auto,clear

pca trunk weight length headroom

pca trunk weight length headroom, comp(2) covariance

..

.

（

2

）

webuse bg2,clear

pca bg2cost*, vce(normal)

12.2 Estat

estat

给出了几个非常有用的工具，包括

KMO

、

SMC

等指标。

webuse bg2,clear

pca bg2cost*, vce(normal)

estat anti

estat kmo

estat loadings

estat residuals

estat smc

estat summarize

12.3

预测

Stata

可以通过

predict

预测变量得分、拟合值和残差等。

webuse bg2,clear

pca bg2cost*, vce(normal)

predict score fit residual q

（备注：

q

代表残差的平方和）

12.4

碎石图

碎石图是判断保留多少个主成分的重要方法。命令为

screeplot

。
 

webuse bg2,clear

pca bg2cost*, vce(normal)

screeplot

Scree plot of eigenvalues after pca

2

E

i

g

e

n

v

a
 l

u

e

s

1

.

5

.

5

1

1

2

3

Number

4

5

6

..

.

12.5

得分图、载荷图

得分图即不同主成分得分的散点图。命令为

scoreplot

。
 

webuse bg2,clear

pca bg2cost*, vce(normal)

scoreplot

Score variables (pca)

4

S

c

o

r
 e

s

f

o

r

c

o

m

p

o

n

e

n

t

2

-
 4

-6

-

2
0

2

-4

-2
0

Scores for component 1

2

4



载荷图即不同主成分载荷的散点图。命令为

loadingplo t

。

webuse bg2,clear

pca bg2cost*, vce(normal)

loadingplot

Component loadin gs

.

6

bg2cost1

.

5

C

o

m

p

o

n
e

n

t

2

bg2cost3

bg2cost2

.

4

bg2cost5

bg2cost 6

.

3

bg2cost4

-.4

-.2

0

.2

Component 1

.4

.6

..

.

12.6

旋转

对载荷进行旋转的命令格式为

rotate

。

webuse bg2,clear

pca bg2cost*, vce(normal)

rotate

例

：对中国

30

个省市自治区经济发展基本情况的八项指标主成分分析，原

始数据如下表：

居民

省份

GDP

(

亿元）

消费

水平

固定资

产投资
 职工平

均工资

货物周

转量

(

亿吨公

里

)

x5

758.9

2703.4

5925.5

2562.2

3658.7

7033.9

1157.8

1690.9

.8

4300.9

4974.9

5843.2

2396.2

2285.5

5165.1

2526.4

2349.8

4428.4

2079

597.7

1490.3

1578.7

805.3

821.3

35.5

居民消

费价格

指数

(

上年

100)

x6

105.1

105.4

106.2

107.2

105.7

104.6

105.1

105.6

105.8

105.4

105

106.2

104.6

106

105.3

107

106.3

106

105.6

107.8

106.9

105.6

105.1

107.6

105.7

105.7

商品零

售价格

指数

(

上年

x7

104.4

105.1

106.7

107.2

104.7

105.3

106.2

105.8

105.3

104.9

106.3

106.3

105.7

106.1

104.9

107.5

106.3

105.6

106

107.6

106.7

105

105.3

107.2

106.1

103.9

100)

x8

10413

12503

23031

10024

8740.2

24769

8406.9

7624.5

25121

67799

40832

11162

15213

8499.6

62959

26028

13455

11553

65425

6072

1103.1

5755.9

14762

3111.1

5144.6

48.19

工业总

产值

(

亿元

)

(

亿元

)

（元）

(

元）

x2

6570

6187

8108

7591

6377

5753

74

7

6103

6550

9835

6072

4426

4553

3504

x3

.7

3389.8

8866.6

3531.2

5475.4

5038.9

.

6747

5207.7

4745.4

.9

3756.4

705.4

3979.6

7127.8

1864.5

3435.9

309.9

x4

56328

41748

24756

25828

26114

27729

23486

046

31667

146

26363

25702

21000

24816

0

33110

25660

21864

26985

25038

24602

24030

47280

area

北

京

天

津

河

北

山

西

内蒙古

辽

宁

吉

林

黑龙江

上

海

江

苏

浙

江

安

徽

福

建

江

西

山

东

河

南

湖

北

湖

南

广

东

广

西

海

南

重

庆

四

川

贵

州

云

南

西

藏

x1

10488.

16188.61

6938.73

7761.8

13461.57

6424.06

831

13698.

21486.92

8874.17

6480.33

31072.

18407.78

11330.38

11156.64

7171.58

1459.23

5096.66

12506.25

3333.4

5700.1

395.91

6354.38

14000

9625

10019.1

30312.61

11013

15300.6

10823.11

10361

26404

10107.8

5877

10490.6

35696.46

14390

10868.7

..

.

陕

西

甘

肃

青

海

宁

夏

新

疆

6851.32

3176.11

961.53

1098.51

4203.4

6290

4869

5830

7193

4614.4

1712.8

583.2

828.9

25942

24017

30983

30719

687

2027

1594.9

335.7

703.6

1273

106.4

108.2

110.1

108.5

108.1

106.9

107.9

110.6

108.5

108.5

7480.8

3667.5

1103.1

1366.5

4276.1

数据

：来源于

2009

年《中国统计年鉴》

程序

：

clear

*

定义变量的标签

label var area

省份

label var x1

亿元）

label var x2

居民消费水平

(

元）
 

label var x3

固定资产投资

(

亿元

)

label var x4

职工平均工资（元）

label var x5

货物周转量

(

亿吨公里

)

label var x6

居民消费价格指数

(

上年

100)

label var x7

商品零售价格指数

(

上年

100)

label var x8

工业总产值

(

亿元

)

describe

pca x1-x8 /*

主成分估计

*/

estat kmo /*KMO

检验，越高越好

*/

estat smc /*SMC

检验，值越高越好

*/

screeplot /*

碎石图（特征值等于

1

处的水平线标示保留主成分的分界点）

*/

predict score fit residual q

/*

预测变量得分、拟合值和残差以及残差的平方和

*/

predict f1 f2 f3

predict q1 q2 q3

scoreplot,mlabel(area) yline(0) xline(0) /*

得分图

1*/

scoreplot,xtitle(

经济社会总量

人民生活水平

mlabel(area) yline(0) xline(0) /*

得分图

*/

scatter f2 f3,xtitle(

人民生活水平

物价水平

mla bel(area) yline(0) xline(0) /*

得分图

*/

scoreplot, factors(3) mlabel(area) /*

得分图

*/

scoreplot,combined factors(3) mlabel(area) yline(0) xline(0) /*

得分图

*/

..

-

-

-

-

-

-

-

-

本文更新与2021-02-10 05:34，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/626764.html

返回列表：英语

上一篇：Stata回归简介
下一篇：外刊阅读语篇精选-答案

当前您在：主页 > 英语 >

主成分分析在STATA中的实现以及理论介绍

-

-

-

-

-

-

-

-

-

返回列表：英语

主成分分析在STATA中的实现以及理论介绍的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

主成分分析在STATA中的实现以及理论介绍的相关文章

当前您在：主页 > 英语 >