-
第十二章
主成分分析
主成分分分析也称作主分量分析,是霍特林
(Hotellin
g)
在
1933
年首先提出。
主成分分析是利用降维的思想,
在损失较少信息的前提
< br>下把多个指标转化为较少的综合指标。
转化生成的综合指标即称为主
成分,
其中每个主成分都是原始变量的线性组合,
且
各个主成分互不
相关。
Stata
对主
成分分析的主要内容包括:主成分估计、主成分分
析的恰当性(包括负偏协方差矩阵和负
偏相关系数矩阵、
KMO(Kaiser-Meyer-Olkin)
< br>抽样充分性、复相关系数、共同度等指标
测度)
、主成分
的旋转、预测、各种检验、碎石图、得分图、载荷图
等。
y
ij
?
a
i
'
b
j
?
?
ij<
/p>
,
i
?
1
,
2
,
?
,
n
j
?
1
,
2
,
?
,
p
主成分的模型表达式为:
C
?
V
?
V
?
?
v
i
< br>?
v
j
?
0
?
?
diag
(
?
1
,
?
2
,
?
,<
/p>
?
p
),
?
p>
1
?
?
2
?
?
?
?
p
p
i
?
< br>1
?
i
v
i
v
i
?
其中,
a
称为得分,
< br>b
称为载荷。主成分分析主要的分析方法是
对相关系数矩
阵(或协方差矩阵)进行特征值分析。
Stata
中可以通过负偏相关系数矩阵、负相关系数平方和
KMO
< br>值
对主成分分析的恰当性进行分析。
负偏相关系数矩阵即
变量之间两两
偏相关系数的负数。
非对角线元素则为负的偏相关
系数。
如果变量之
间存在较强的共性,则偏相关系数比较低。因
此,如果矩阵中偏相关
系数较高的个数比较多,
说明某一些变量
与另外一些变量的相关性比
较低,主成分模型可能不适用。这时,主成分分析不能得到很
好的数
据约化效果。
Kaiser-
Meyer-Olkin
抽样充分性测度也是用于测量变量之间相
关关系的强弱的重要指标,
是通过比较两个变量的相关系数与偏相关
< br>系数得到的。
KMO
介于
0
p>
于
1
之间。
KMO
越高,表明变量的共性越强。
如果偏相关系数相对于相关系数比
较高,
则
KMO
比较低,
主成分分析
不能起到很好的数据约化效果。根据
Ka
iser
(
1974
)
,一般的判断标
准如下:
0.00-0.49,
不能接受(
unacceptable
)
p>
;0.50-0.59,
非常差
(
miserable
)
;
0.60-0.69
,勉强接受(
mediocre
)
;
0.70-0.79,
可以
接受(
middling
)<
/p>
;
0.80-0.89
,比较好(
meritorious
)
;
0.90-1.00,
非常好(
marvelous<
/p>
)
。
SMC<
/p>
即一个变量与其他所有变量的复相关系数的平方,也就是复
回归方
程的可决系数。
SMC
比较高表明变量的线性关系越强,共性越
强,主成分分析就越合适。
成分载荷
、
KMO
、
SMC
等指标都可以通过
extat
命令进行分析。
多元方差分析是方差分析在多元中的扩展,
即模型
含有多个响应
变量。本章介绍多元(协)方差分析以及霍特林(
Hotelling)
均值向
量
T
p>
检验。
12.1
主成分估计
Stata
可以通过变量进行主成分分析,也可以直接通过相关系数
矩阵或协方差矩阵进
行。
(
1
)
sysuse auto,clear
pca trunk
weight length headroom
pca trunk weight
length headroom, comp(2) covariance
p>
(
2
)
webus
e bg2,clear
pca bg2cost*, vce(normal)
12.2 Estat
estat
给出了几个非常有用的工具,包括
KMO
、
SMC
等指标。
webuse bg2,clear
pca
bg2cost*, vce(normal)
estat anti
estat kmo
estat loadings
estat residuals
estat smc
estat summarize
12.3
预测
Stata
可以通过
predict
预测变量得分、拟合值和残差等。
webuse bg2,clear
pca bg2cost*, vce(normal)
predict score fit residual q
< br>(备注:
q
代表残差的平方和)
12.4
碎石图
< br>碎石图是判断保留多少个主成分的重要方法。
命令为
sc
reeplot
。
webuse
bg2,clear
pca bg2cost*, vce(normal)
screeplot
Scree plot of
eigenvalues after pca
2
E
i
g
e
n
v
a
l
u
e
s
1
.
5
.
5
1
1<
/p>
2
3
Number
4
5
6
12.5
得分图、载荷图
得分图即不同主成分得分的散点图。命令为
scoreplot
。
webuse bg2,clear
pca bg2cost*, vce(normal)
scoreplot
Score variables (p
ca)
4
S
c
o
r
e
s
f
o
r
p>
c
o
m
p
o
n
e
n
t
2
-
< br>4
-
2
0
2
-6
-4
0
-2
Scores for component
1
2
4
<
/p>
载荷图即不同主成分载荷的散点图。命令为
loadingplo
t
。
webuse
bg2,clear
pca bg2cost*, vce(normal)
loadingplot
Component loadin
gs
.
6
bg2cost1
.
5
C
o
m
p
o
n
e
n
t
2
bg2cost3
bg2cost2
.
4
bg2cost5
bg2cost
6
.
3
bg2cost4
-.4
-.2
0
.2
Component
1
.4
.6
12.6
旋转
对载荷进行旋转的命令格式为
rotate
。
webuse bg2,clear
pca
bg2cost*, vce(normal)
rotate
例
p>
:对中国
30
个省市自治区经济发展基本情
况的八项指标主成
分分析,原始数据如下表:
居民
商品
固
定
居民
资产
GDP
消费
省份
(
亿元)
水
平
投资
工资
(
上
年
(
亿
元<
/p>
)
平均
量
指数
指数
值
职工
周转
价格
价格
总产
货物
消费
零售
工业
(
亿
(
亿吨
< br>(
上
(
元)
(元)
元
)
公里
)
年
100)
100)
area
北
京
x1
x2
x3
3814.
56328
758.9
03
6
7
1
4
x4
x5
x6
x7
x8
10413
10488.
p>
2034
105.
104.
天
津
河
北
山
6354.3
1400
8
16188.
6570
61
6938.7
0
3389.
41748
8
8866.
24756
6
3531.
2703.
105.
105.
12503
4
4
1
23031
5
2
7
2562.
< br>107.
107.
5925.
1
06.
106.
西
内蒙
古
辽
宁
吉
林
黑龙
江
上
海
江
苏
浙
江
安
徽
3
7761.8
13461.
57
6424.0
6
8310
13698.
15
30312.
61
21486.
92
8874.1
7
6187
2
5475.
8108
4
10019
9625
.1
5038.
7591
9
7039
3656
2734
4823.
3
1
1101
15300
3
.6
1389
9323
3
6377
6747
25828
26114
27729
23486
23046
56565
31667
34146
26363
2
3658.
7
7033.
9
1157.
8
1690.
9
16029
.8
4300.
9
4974.
9
5843.
2
2
2
105.
104.
7
7
104.
105.
6
3
105.
106.
1
2
105.
105.
6
8
105.
105.
8
3
105.
104.
4
9
106.
105
3
106.
106.
2
3
10024
8740.
2
24769
8406.
9
7624.
5
25121
67799
40832
11162
福
建
江
西
山
10823.
1036
11
6480.3
5753
3
31072.
1
5207.
25702
7
4745.
21000
4
15435
2396.
104.
105.
15213
2
2285.
106
5
1
6
10107
< br>105.
104.
6
7
p>
106.
8499.
东
06
河
18407.
南
78
湖
11330.
北
38
湖
11156.
南
64
广
35696.
东
46
广
7171.5
西
8
海
1459.2
南
3
重
5096.6
庆
6
四
12506.
川
25
9573
.9
10490
5877
.6
7406
5647
7145
5534
1439
10868
0
.7
3756.
6103
4
6550
705.4
3979.
9835
6
7127.
6072
8
26404
24816
22739
24870
33110
25660
21864
26985
25038
.8
5165.
1
2526.
4
2349.
8
4428.
4
2079
597.7
1490.
3
1578.
7
3
9
107.
107
5
106.
106.
3
3
105.
106
6
105.
106
6
107.
107.
8
6
106.
106.
9
7
105.
105
6
105.
105.
1
3
62959
26028
13455
11553
65425
6072
1103.
1
5755.
9
14762
贵
3333.4
4426
州
云
5700.1
4553
南
1864.
24602
805.3
5
3435.
24030
821.3
9
107.
107.
3111.
6
2
1
105.
106.
5144.
7
1
6
西
395.91
3504
309.9
47280
藏
陕
6851.3
4614.
6290
25942
西
2
4
甘
3176.1
1712.
4869
24017
肃
1
8
青
961.53
5830
583.2
30983
海
宁
1098.5
7193
828.9
30719
夏
1
新
4203.4
5542
2260
24687
疆
1
数据
:
来源于
2009
年《中国统计年鉴》
程序
:
clear
*
定义变量的标签
105.
35.5
7
106.
2027
4
108.
9
2
110.
1
108.
5
108.
1273
1
103.
48.19
9
106.
7480.
9
8
107.
3667.
9
5
110.
1103.
6
1
108.
1366.
5
5
108.
4276.
5
1
1594.
335.7
703.6
label var
area
省份
label
var x1
亿元)
label
var x2
居民消费水平
(
元)
label var x3
固定资
产投资
(
亿元
)
label var x4
职工平均工资(元)
label
var x5
货物周转量
(
亿吨公里
)
label var
x6
居民消费价格指数
(
上年
100)
label var
x7
商品零售价格指数
(
上年
100)
label var
x8
工业总产值
(
亿元
)
describe
pca
x1-x8 /*
主成分估计
*/
estat kmo
/*KMO
检验,越高越好
*/
estat smc
/*SMC
检验,值越高越好
*/
screeplot /*
碎石
图(特征值等于
1
处的水平线标示保留主成分的
分界点)
*/