-
第
13
章
因子分析
因子分析始于
1904
年
Chars
S
pearman
对学生成绩的分析,
在经济领域有着
极为广泛的用途。
在多个变量的变化过程中,
除了
一些特定因素之外,
还受到一
些共同因素的影响。因此,每个变
量可以拆分成两部分,一是共同因素,二是特
殊因素。
这些共同
因素称为公因子,
特殊因素称为特殊因子。
因子分析即是提出<
/p>
多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。
< br>
因子分析主要解决两类问题:
一是寻求基本结构,
p>
简化观察系统。
给定一组
变量或观察数据,
是否存在一个子集,特别是一个加权子集,来解释整个问题,
即将为数众多的变量减少为
几个新的因子,
以再现它们之间的内在联系。
二是用
于分类,
将变量或样本进行分类,
根据因子得分值
,
在因子轴所构成的空间中进
行分类处理。
p
个变量
X
的因子模型表达式为:
X
=
p>
f
?
'
?
e
f
称为公因子,<
/p>
?
称为因子载荷。
X
的相关系数矩阵分解为:
?
?<
/p>
???
'
?
?<
/p>
对于未旋转的因子,
?
?
1
。
?
称为特殊度,即每个变量中不属于共性的部
分。
因子估计
Stata
可以通过变量进行因子分析,也可以通过矩阵进行。
命令为
factor
或
factorm
at
。
webuse
bg2,clear
describe
factor
bg2cost1-bg2cost6
factor
bg2cost1-bg2cost6, factors(2)
* pf
主因子方法,用复相关系数的平方作为因子载荷的估计量
(
默认选项
)
factor
bg2cost1-bg2cost6, factors(2) pcf
* pcf
主成分因子,假定共同度=
1
factor bg2cost1-bg2cost6, factors(2)
ipf
* ipf
迭代主因子,重复估计共同度
factor bg2cost1-bg2cost6, factors(2) ml
*
ml
极大似然因子,假定变量
(至少
3
个)服从多元正态分布,对偏相关矩阵的行列式进行最
优化求解,等价于
Rao
的典型因子方
法
预测
Stata
可以通过
predict<
/p>
预测变量得分、拟合值和残差等。
webuse bg2,clear
factor
bg2cost1-bg2cost6
predict f1 f2
* factor1
factor2
因子分得分
predict stdp residuals
*
预测标准差和残差
Estat
Eatat
给出了几个非
常有用的工具,包括
KMO
、
SMC<
/p>
等指标。
webuse
bg2,clear
factor bg2cost1-bg2cost6
estat anti
estat kmo
estat residuals
estat smc
estat summarize
因子旋转与作图
因子分析的旋转方法
以及碎石图、
得分图、
因子载荷图与主成分分析的方法
相同,请参见”主成分分析”一章。
webuse bg2,clear
factor
bg2cost1-bg2cost6
screeplot
/*
碎石图
*/
scoreplot
/*
得分图
*/
loadingplot
/*
因子载荷图
*/
rotate
/*
旋转
*/
例
:利用
2009
年的数据对中国社会发展状况进行综合考察,原始数据
如下
表:
省份
人均
G
DP
(元)
x1
63029
55473
23239
20398
32214
31259
23514
21727
73124
39622
42214
14485
30123
14781
新增固定<
/p>
资产(亿
元)
x2
城镇居
民
人均年可
支配收入
(元)
x3
p>
农村居民
家庭人均
纯收入
< br>(元)
x4
高等学校
卫生机构
< br>数(所)
数(个)
x5
85
55
105
69
39
104
55
78
66
146
98
104
81
82
x6
6497
2784
15632
9431
7162
14627
9659
7928
2822
13357
15290
7837
4478
8229
area
北
京
天
津
河
北
山
西
内蒙古
辽
宁
吉
林
黑龙江
上
海
江
苏
浙
江
安
徽
福
建
江
西
山
东
河
南
湖
北
湖
南
广
东
广
西
海
南
重
庆
四
川
贵
州
云
南
西
藏
陕
西
甘
肃
青
海
宁
夏
新
疆
33083
19593
19860
17521
37589
14966
17175
18025
15378
8824
12587
13861
18246
12110
17389
17892
19893
6414
1419
903
1551
125
94
118
115
125
68
16
47
90
45
59
6
88
39
9
15
37
14973
11683
10305
14455
15819
10427
2220
6265
20738
5848
9249
1326
8812
10534
1582
1629
6739
程序:
clear
*
定义变量的标签
label var area
省份
label var x1
人均
GDP
(元)
label var x2
新增固定资产(亿元)
label
var x3
城镇居民人均年可支配收入(元)
label var x4
农村居民家庭人均纯收入(元)
label var x5
高等学校数(所)
label var
x6
卫生机构数(个)
describe
factor
x1-x6
screeplot /*
碎石图(特征值等于
1
处的水平线标示保留主成分的分
界点)
*/
*
检验
estat kmo
/*KMO
检验,越高越好
*/
estat smc
/*SMC
检验,值越高越好
*/
rotate /*
旋转
*/
loadingplot , yline(0)
xline(0)/*
载荷图
*/
*
预测
predict score fit residual q
/*
预测变量得分、拟合值和残差以及残差的平方和
*/
predict f1 f2
label var f1
收入因子
label var f2
投资、社会因子
list area f1 f2
summarize f1
f2
correlate f1 f2
< br>scoreplot,
xtitle(
收入因子
投资、社会因子
-----------------------------------
---------------------------------------
LR test: independent vs. saturated:
chi2(15) = Prob>chi2 =
Factor loadings (pattern matrix) and
unique variances
------
--------------------------------------------------
---
Variable | Factor1
Factor2 Factor3 | Uniqueness
-
------------+------------------------------+------
--------
x1_s | |
x2_s | |
x3_s | |
x4_s | |
x5_s | |
x6_s | |
-----------------------------------
------------------------
从上面的分析可以看出,只有两
个成分大于
1
大于的特征值,同时两个成
分解释了全部六个变量组合的方差还多。不重要的第
2
到<
/p>
6
个主成分在随后的
分析中可以放心地省
略去。
运行
factor
命令后,我们可以接着运行
screeplot
命
令画出碎石图。碎石
图中特征值等于
1
处的水平线标示了保留主成分的常用分界点,
同时再次强调了
本
例中的成分
3
到成分
6
并不重要。
Scree plot of eigenvalues after factor<
/p>
4
E
i
g
e
n
v
a
l
u
e
s
0
1
1
2
3
2
3
Number
4
5
6
碎石图
检验的方法还是跟上一章的主
成分分析一样,由于我们都是选用实际的数
据来进行分析,所以在一般情况下,检验都是
通得过的,可以忽略,觉得有需要
的再进行检验。
旋转会进一步简化因子结构。
在提取因子之后,
键
入
rotate
命令进行旋转。
Factor analysis/correlation
Number of obs = 31
Method:
principal factors Retained
factors = 3
Rotation:
orthogonal varimax (Kaiser off) Number of
params = 15
-----
--------------------------------------------------
-------------------
Factor |
Variance Difference Proportion
Cumulative
-------------+----------
--------------------------------------------------
Factor1 |
Factor2 |
Factor3 | .
-----------------------------------
---------------------------------------
LR test: independent vs. saturated:
chi2(15) = Prob>chi2 =
Rotated factor loadings (pattern
matrix) and unique variances
-----------------------------------
------------------------
Variable | Factor1 Factor2 Factor3 |
Uniqueness
-------------+---------
---------------------+--------------
x1 | |
x2 | |
-
-
-
-
-
-
-
-
-
上一篇:六级真题答案
下一篇:Verbal Test题型分析及真题(中英文)