-
.
第十二章
主成分分析
主成分分分析也称作主分
量分析,是霍特林
(Hotelling)
在
< br>1933
年首先提
出。
主成分分
析是利用降维的思想,
在损失较少信息的前提下把多个指标转化为
较少的综合指标。
转化生成的综合指标即称为主成分,
其中每
个主成分都是原始
变量的线性组合,
且各个主成分互不相关。<
/p>
Stata
对主成分分析的主要内容包括:
主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、
KMO
(Kaiser-Meyer-Olkin)
抽样充分性、
复相
关系数、
共同度等指标测度)
、
主成<
/p>
分的旋转、预测、各种检验、碎石图、得分图、载荷图等。
y
ij
?
a
i
'
b
j
?
?
ij<
/p>
,
i
?
1
,
2
,
?
,
n
主成分的模型表达式为:
p
C
?
V
?
V
?
?<
/p>
?
i
v
i
v
i
?
i
?
1
v
i
?
v
j
?
0
j
?
1
,
2
,
?
,<
/p>
p
?
?
diag
(
?
p>
1
,
?
2
,
?
,
?
p
),
?
1
?
?
2
?
?
?
?
p
其中,
a
称为得分,
b
称为载荷。主成分分析主要的分析方法是对相关系数
矩阵(或协方差矩阵)进行
特征值分析。
Stata
中可以通过
负偏相关系数矩阵、
负相关系数平方和
KMO
< br>值对主成分分
析的恰当性进行分析。
负偏相关系数矩阵即
变量之间两两偏相关系数的负数。
非
对角线元素则为负的偏相关
系数。
如果变量之间存在较强的共性,
则偏相关系数
比较低。
因此,
如果矩阵中偏相关系数较高的个数
比较多,
说明某一些变量与另
外一些变量的相关性比较低,
p>
主成分模型可能不适用。
这时,
主成分分析
不能得
到很好的数据约化效果。
Kaiser-Meyer-Olkin
抽样充分性测度也是用
于测量变量之间相关关系的强
弱的重要指标,是通过比较两个变量的相关系数与偏相关系
数得到的。
KMO
介于
0
于
1
之间。
KMO
越高,表明变量的共性越强。如果偏相关系数相对于相关系数
比较高,<
/p>
则
KMO
比较低,
主成分分析不能起到很好的数据约化效果。
根据
Kaiser
(
1974
)
,
一般的判断标准如下:
0.00-0.49,
不能接受
(
unacceptable
)
;0.50-0.59,
非常差(
< br>miserable
)
;
0.6
0-0.69
,勉强接受(
mediocre
< br>)
;
0.70-0.79,
可以
接受
(
middling
)
;
0.80-0.89
,比较好(
meritorious
)
;
0.90-1.00,
非常好
(
mar
velous
)
。
< br>SMC
即一个变量与其他所有变量的复相关系数的平方,
也就是复回归方程的
可决系数。
SMC
比较高表明变量的线性关系越强,共性越强,主成分分析就越合
适。
成分载荷、
KMO
、
SMC
等指标都可以通过
extat
命令进行分析。
多元方差分析是方差分析在多元中
的扩展,
即模型含有多个响应变量。
本章
介绍多元(协)方差分析以及霍特林(
Hotelling)
均值向量
T
检验。
12.1
主成分估计
Stata
可以通过变量进行主成分分析,
也可以直
接通过相关系数矩阵或协方
差矩阵进行。
(
1
)
sysuse
auto,clear
pca trunk weight length
headroom
pca trunk weight length
headroom, comp(2) covariance
..
.
(
2<
/p>
)
webuse bg2,clear
pca bg2cost*, vce(normal)
12.2 Estat
estat
给
出了几个非常有用的工具,包括
KMO
、
SMC
等指标。
webuse
bg2,clear
pca bg2cost*, vce(normal)
estat anti
estat kmo
estat loadings
estat
residuals
estat smc
estat
summarize
12.3
预测
Stata
可以通过
predict<
/p>
预测变量得分、拟合值和残差等。
webuse bg2,clear
pca
bg2cost*, vce(normal)
predict score fit
residual q
(备注:
q
代表残差的平方和)
12.4
碎石图
碎石图是判断保留多少个主成
分的重要方法。命令为
screeplot
。
< br>
webuse bg2,clear
pca
bg2cost*, vce(normal)
screeplot
Scree plot of eigenvalues after pca
2
E
i
g
e
n
v
a
< br>l
u
e
s
1
.
5
.
5
1
1
2
3
p>
Number
4
5
6
..
.
12.5
得分图、载荷图
得分图即不同主成分
得分的散点图。命令为
scoreplot
。
< br>
webuse bg2,clear
pca
bg2cost*, vce(normal)
scoreplot
Score variables (pca)
4
S
c
o
r
< br>e
s
f
o
r
p>
c
o
m
p
o
n
e
n
t
2
-
< br>4
-6
-
2
0
2
-4
-2
0
Scores for component
1
2
4
<
/p>
载荷图即不同主成分载荷的散点图。命令为
loadingplo
t
。
webuse
bg2,clear
pca bg2cost*, vce(normal)
loadingplot
Component loadin
gs
.
6
bg2cost1
.
5
C
o
m
p
o
n
e
n
t
2
bg2cost3
bg2cost2
.
4
bg2cost5
bg2cost
6
.
3
bg2cost4
-.4
-.2
0
.2
Component
1
.4
.6
..
.
12.6
旋转
对载荷进行旋转的命令格式为
rotate
。
webuse bg2,clear
pca
bg2cost*, vce(normal)
rotate
例
p>
:对中国
30
个省市自治区经济发展基本情
况的八项指标主成分分析,原
始数据如下表:
居民
省份
GDP
(
亿元)
消
费
水平
固定资
产投资
< br>职工平
均工资
货物周
转量
(
亿吨公
里
)
x5
758.9
2703.4
5925.5
2562.2
3658.7
7033.9
1157.8
1690.9
.8
4300.9
4974.9
5843.2
2396.2
2285.5
5165.1
2526.4
2349.8
4428.4
2079
597.7
1490.3
1578.7
805.3
821.3
35.5
居民消
费价格
指数
(
上年
100)
x6
105.1
105.4
106.2
107.2
105.7
104.6
105.1
105.6
105.8
105.4
105
106.2
104.6
106
105.3
107
106.3
106
105.6
107.8
106.9
105.6
105.1
107.6
105.7
105.7
商品零
售价格
指数
(
上年
x7
104.4
105.1
106.7
107.2
104.7
105.3
106.2
105.8
105.3
104.9
106.3
106.3
105.7
106.1
104.9
107.5
106.3
105.6
106
107.6
106.7
105
105.3
107.2
106.1
103.9
100)
x8
10413
12503
23031
10024
8740.2
24769
8406.9
7624.5
25121
67799
40832
11162
15213
8499.6
62959
26028
13455
11553
65425
6072
1103.1
5755.9
14762
3111.1
5144.6
48.19
工业总
产值
(
亿元
)
(
亿元
)
(元)
(
元)
x2
6570
6187
8108
7591
6377
5753
74
7
6103
6550
9835
6072
4426
4553
3504
x3
.7
3389.8
8866.6
3531.2
5475.4
5038.9
.
6747
5207.7
4745.4
.9
3756.4
705.4
3979.6
7127.8
1864.5
3435.9
309.9
x4
56328
41748
24756
25828
26114
27729
23486
046
31667
146
26363
25702
21000
24816
0
33110
25660
21864
26985
25038
24602
24030
47280
area
北
京
天
津
河
北
山
西
内蒙古
辽
宁
吉
林
黑龙江
上
海
江
苏
浙
江
安
徽
福
建
江
西
山
东
河
南
湖
北
湖
南
广
东
广
西
海
南
重
庆
四
川
贵
州
云
南
西
藏
x1
10488.
16188.61
6938.73
7761.8
13461.57
6424.06
831
13698.
21486.92
8874.17
6480.33
31072.
18407.78
11330.38
11156.64
7171.58
1459.23
5096.66
12506.25
3333.4
5700.1
395.91
6354.38
14000
9625
10019.1
30312.61
11013
15300.6
10823.11
10361
26404
10107.8
5877
10490.6
35696.46
14390
10868.7
..
.
陕
西
甘
肃
青
海
宁
夏
新
疆
6851.32
3176.11
961.53
1098.51
4203.4
6290
4869
5830
7193
4614.4
1712.8
583.2
828.9
25942
24017
30983
30719
687
2027
1594.9
335.7
703.6
1273
106.4
108.2
110.1
108.5
108.1
106.9
107.9
110.6
108.5
108.5
7480.8
3667.5
1103.1
1366.5
4276.1
数据
:来源于
2009
年《中国统计年鉴》
程序
:
clear
*
定义变量的标签
label var area
省份
label var x1
亿元)
label var x2
居民消费水平
(
元)
< br>
label var x3
固定资产投资
(
亿元
)
label
var x4
职工平均工资(元)
label
var x5
货物周转量
(
亿吨公里
)
label var
x6
居民消费价格指数
(
上年
100)
label var
x7
商品零售价格指数
(
上年
100)
label var
x8
工业总产值
(
亿元
)
describe
pca
x1-x8 /*
主成分估计
*/
estat kmo
/*KMO
检验,越高越好
*/
estat smc
/*SMC
检验,值越高越好
*/
screeplot /*
碎石
图(特征值等于
1
处的水平线标示保留主成分的分界点)
*/
predict score fit residual q
/*
预测变量得分、拟合值和残差以及残差的平方和
*/
predict f1 f2 f3
predict q1
q2 q3
scoreplot,mlabel(area) yline(0)
xline(0) /*
得分图
1*/
scoreplot,xtitle(
经济社会总量
人民生活水平
mlabel(area)
yline(0) xline(0) /*
得分图
*/
scatter f2 f3,xtitle(
人民生活水平<
/p>
物价水平
mla
bel(area) yline(0) xline(0)
/*
得分图
*/
scoreplot, factors(3) mlabel(area)
/*
得分图
*/
scoreplot,combined factors(3)
mlabel(area) yline(0) xline(0)
/*
得分图
*/
..
-
-
-
-
-
-
-
-
-
上一篇:Stata回归简介
下一篇:外刊阅读语篇精选-答案