(完整版)主成分分析在STATA中的实现以及理论介绍_高中生题库网|高考真题|高考试题-「密云二中」

(完整版)主成分分析在STATA中的实现以及理论介绍

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-10 05:32

tags:

-

2021年2月10日发(作者：stampede)

第十二章

主成分分析

主成分分分析也称作主分量分析，是霍特林

(Hotellin g)

在

1933

年首先提出。

主成分分析是利用降维的思想，

在损失较少信息的前提

下把多个指标转化为较少的综合指标。

转化生成的综合指标即称为主

成分，

其中每个主成分都是原始变量的线性组合，

且各个主成分互不

相关。

Stata

对主成分分析的主要内容包括：主成分估计、主成分分

析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、

KMO(Kaiser-Meyer-Olkin)

抽样充分性、复相关系数、共同度等指标

测度）

、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图

等。

ij

,

主成分的模型表达式为：

?

V

?

V

?

?

v

i
 ?

v

j

?

0

?

?

diag
(

?

1

,

?

2

,

?

,

?

p

),

?

1

?

?

2

?

?

?

?

p

p

i

?
 1

?

i

v

i

v

i

?

其中，

a

称为得分，
 b

称为载荷。主成分分析主要的分析方法是

对相关系数矩阵（或协方差矩阵）进行特征值分析。

Stata

中可以通过负偏相关系数矩阵、负相关系数平方和

KMO
 值

对主成分分析的恰当性进行分析。

负偏相关系数矩阵即变量之间两两

偏相关系数的负数。

非对角线元素则为负的偏相关系数。

如果变量之

间存在较强的共性，则偏相关系数比较低。因此，如果矩阵中偏相关

系数较高的个数比较多，

说明某一些变量与另外一些变量的相关性比

较低，主成分模型可能不适用。这时，主成分分析不能得到很好的数

据约化效果。

Kaiser- Meyer-Olkin

抽样充分性测度也是用于测量变量之间相

关关系的强弱的重要指标，

是通过比较两个变量的相关系数与偏相关
 系数得到的。

KMO

介于

0

于

1

之间。

KMO

越高，表明变量的共性越强。

如果偏相关系数相对于相关系数比较高，

则

KMO

比较低，

主成分分析

不能起到很好的数据约化效果。根据

Ka iser

（

1974

）

，一般的判断标

准如下：

0.00-0.49,

不能接受（

unacceptable

）

;0.50-0.59,

非常差

（

miserable

）

；

0.60-0.69

，勉强接受（

mediocre

）

；

0.70-0.79,
可以

接受（

middling

）

；

0.80-0.89

，比较好（

meritorious

）

；

0.90-1.00,

非常好（

marvelous

）

。

SMC

即一个变量与其他所有变量的复相关系数的平方，也就是复

回归方程的可决系数。

SMC

比较高表明变量的线性关系越强，共性越

强，主成分分析就越合适。

成分载荷、

KMO

、

SMC
等指标都可以通过

extat

命令进行分析。

多元方差分析是方差分析在多元中的扩展，

即模型含有多个响应

变量。本章介绍多元（协）方差分析以及霍特林（

Hotelling)

均值向

量

T

检验。

12.1

主成分估计

Stata

可以通过变量进行主成分分析，也可以直接通过相关系数

矩阵或协方差矩阵进行。

（

1

）

sysuse auto,clear

pca trunk weight length headroom

pca trunk weight length headroom, comp(2) covariance

（

2

）

webus e bg2,clear

pca bg2cost*, vce(normal)

12.2 Estat

estat

给出了几个非常有用的工具，包括

KMO

、

SMC

等指标。

webuse bg2,clear

pca bg2cost*, vce(normal)

estat anti

estat kmo

estat loadings

estat residuals

estat smc

estat summarize

12.3

预测

Stata
可以通过

predict

预测变量得分、拟合值和残差等。

webuse bg2,clear

pca bg2cost*, vce(normal)

predict score fit residual q
 （备注：

q

代表残差的平方和）

12.4

碎石图

 碎石图是判断保留多少个主成分的重要方法。

命令为

sc reeplot

。

webuse bg2,clear

pca bg2cost*, vce(normal)

screeplot

Scree plot of eigenvalues after pca

2

E

i

g

e

n

v

a

l

u
e

s

1

.

5

.

5

1

1

2

3

Number

4

5

6

12.5

得分图、载荷图

得分图即不同主成分得分的散点图。命令为

scoreplot

。

webuse bg2,clear

pca bg2cost*, vce(normal)

scoreplot

Score variables (p ca)

4

S

c

o

r

e

s

f

o

r

c

o

m

p

o

n

e

n

t

2

-
 4

-

2

0

2

-6

-4

0

-2

Scores for component 1

2

4



载荷图即不同主成分载荷的散点图。命令为

loadingplo t

。

webuse bg2,clear

pca bg2cost*, vce(normal)

loadingplot

Component loadin gs

.

6

bg2cost1

.

5

C

o

m

p

o

n
e

n

t

2

bg2cost3

bg2cost2

.

4

bg2cost5

bg2cost 6

.

3

bg2cost4

-.4

-.2

0

.2

Component 1

.4

.6

12.6

旋转

对载荷进行旋转的命令格式为

rotate

。

webuse bg2,clear

pca bg2cost*, vce(normal)

rotate

例

：对中国

30

个省市自治区经济发展基本情况的八项指标主成

分分析，原始数据如下表：

居民

商品

固定

居民

资产

GDP

消费

省份

(

亿元）

水平

投资

工资

(

上

年

(

亿

元

)

平均

量

指数

指数

值

职工

周转

价格

价格

总产
货物

消费

零售

工业

(

亿

(

亿吨
 (

上

(

元）

（元）

元

)

公里

)

年

100)

100)

area

北

京

x1

x2

x3

3814.

56328

758.9

03

6

7

1

4

x4

x5

x6

x7

x8

10413

10488.

2034

105.

104.

天

津

河

北

山

6354.3

1400

8

16188.

6570

61

6938.7

0

3389.

41748

8

8866.

24756

6

3531.

2703.

105.

105.

12503

4

4

1

23031

5

2

7

2562.
 107.

107.

5925.

1 06.

106.

西

内蒙

古

辽

宁

吉

林

黑龙

江

上

海

江

苏

浙

江

安

徽

3

7761.8

13461.

57

6424.0

6

8310

13698.

15

30312.

61

21486.

92

8874.1

7

6187

2

5475.

8108

4

10019

9625

.1

5038.

7591

9

7039

3656

2734

4823.

3

1

1101

15300

3

.6

1389

9323

3

6377

6747

25828

26114

27729

23486

23046

56565

31667

34146

26363

2

3658.

7

7033.

9

1157.

8

1690.

9

16029

.8

4300.

9

4974.

9

5843.

2

2

2

105.

104.

7

7

104.

105.

6

3

105.

106.

1

2

105.

105.

6

8

105.

105.

8

3

105.

104.

4

9

106.

105

3

106.

106.

2

3

10024

8740.

2

24769

8406.

9

7624.

5

25121

67799

40832

11162

福

建

江

西

山

10823.

1036

11

6480.3

5753

3

31072.

1

5207.

25702

7

4745.

21000

4

15435

2396.

104.

105.

15213

2

2285.

106

5

1

6

10107
 105.

104.

6

7

106.

8499.

东

06

河

18407.

南

78

湖

11330.

北

38

湖

11156.

南

64

广

35696.

东

46

广

7171.5

西

8

海

1459.2

南

3

重

5096.6

庆

6

四

12506.

川

25

9573

.9

10490

5877

.6

7406

5647

7145

5534

1439

10868

0

.7

3756.

6103

4

6550

705.4

3979.

9835

6

7127.

6072

8

26404

24816

22739

24870

33110

25660

21864

26985

25038

.8

5165.

1

2526.

4

2349.

8

4428.

4

2079

597.7

1490.

3

1578.

7

3

9

107.

107

5

106.

106.

3

3

105.

106

6

105.

106

6

107.

107.

8

6

106.

106.

9

7

105.

105

6

105.

105.

1

3

62959

26028

13455

11553

65425

6072

1103.

1

5755.

9

14762

贵

3333.4

4426

州

云

5700.1

4553

南

1864.

24602

805.3

5

3435.

24030

821.3

9

107.

107.

3111.

6

2

1

105.
106.

5144.

7

1

6

西

395.91

3504

309.9

47280

藏

陕

6851.3

4614.

6290

25942

西

2

4

甘

3176.1

1712.

4869

24017

肃

1

8

青

961.53

5830

583.2

30983

海

宁

1098.5

7193

828.9

30719

夏

1

新

4203.4

5542

2260

24687

疆

1

数据

：来源于

2009

年《中国统计年鉴》

程序

：

clear

*

定义变量的标签

105.

35.5

7

106.

2027

4

108.

9

2

110.

1

108.

5

108.

1273

1

103.

48.19

9

106.

7480.

9

8

107.

3667.

9

5

110.

1103.

6

1

108.

1366.

5

5

108.

4276.

5

1

1594.

335.7

703.6

label var area

省份

label var x1

亿元）

label var x2

居民消费水平

(

元）

label var x3

固定资产投资

(

亿元

)

label var x4

职工平均工资（元）

label var x5

货物周转量

(

亿吨公里

)

label var x6

居民消费价格指数

(

上年

100)

label var x7

商品零售价格指数

(

上年

100)

label var x8

工业总产值

(

亿元

)

describe

pca x1-x8 /*

主成分估计

*/

estat kmo /*KMO

检验，越高越好

*/

estat smc /*SMC

检验，值越高越好

*/

screeplot /*

碎石图（特征值等于

1

处的水平线标示保留主成分的

分界点）

*/

-

-

-

-

-

-

-

-

本文更新与2021-02-10 05:32，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/626749.html

返回列表：英语

上一篇：STATA翻译
下一篇：解析全国百强校Word河北省衡水中学2017届高三第十次调研英语A卷课标版卷含答案原卷版

当前您在：主页 > 英语 >

(完整版)主成分分析在STATA中的实现以及理论介绍

-

-

-

-

-

-

-

-

-

返回列表：英语

(完整版)主成分分析在STATA中的实现以及理论介绍的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

(完整版)主成分分析在STATA中的实现以及理论介绍的相关文章

当前您在：主页 > 英语 >