-
实验课:因子分析
实验目的
理解主成分
(因子)
分析的基本原理,
熟悉并掌握
SPSS
中的主成分
(因子)
分析方法及其主要应用。
因子分析
一、
基
础理论知识
1
概念
因子分析
(
Factor analy
sis
)
:就是用少数几个因子来描述许多指标或因素之间的联
系,
以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,
主成分分
析是一种化繁为简的降维处理技
术。
主成分分析
(
Principal
component
analysis
)
:是因子分析的一个特例,是使用最多的因
子提取方法。它
通过坐标变换手段,
将原有的多个相关变量,
做线性变化,
p>
转换为另外一组
不相关的变量。
选取前面几
个方差最大的主成分,
这样达到了因子分析较少变量个数的目的,
同时又能与较少的变量反映原有变量的绝大部分的信息。
两
者关系
:主成分分析(
PCA
)和因子
分析(
FA
)
是两种把变量维数降低以
便于描述、
理解和分析的方法,而实际上
主成分分析可以说是因
子分析的一个特例
。
2
特点
(
1<
/p>
)因子变量的
数量远少于原有的指标变量的数量
< br>,因而对因子变量的分析能够减少
分析中的工作量。
<
/p>
(
2
)因子变量不是对原始变量的取舍,
而是根据原始变量的信息进行重新组构,它能
够反映原有变量大部分的信息。
(
3
)因子变量之间不
存在显著的线性相关关系,对变量的分析比较方便,但原始部分
变量之间多存在较显著的
相关关系。
(
4
)因
子变量具有命名解释
性,即该变量是对某些原始变量信
息的综合和反映。
在保证数据信息丢失最少的原则下,
对高维变量空间进行降维处理
(即通过因子分析或
主成分分析)
。显然,在一个低维空间解释系统要比在高维系统容易的多。
第
1
页
3
类型
根据研究对象的不同,把因子分
析分
为
R
型和
Q
型两种
。
当研究对象是变量时,属于
R
型因子分析;
当研究对象是样品时,属于
Q
型
因子分析。
但有的因子分析方法兼有
R
型和
Q
型因子分析的一些特点,如因
子分析中的对应分析
方法,有的学者称之为双重型因子分析,以示与其他两类的区别。<
/p>
4
分析原理
假定:有
n
个地理样本,每个样本共有
p
个变量,构成一个
n
×
p
阶的地理数据矩阵
:
当
p<
/p>
较大时,
在
p
维
空间中考察问题比较麻烦。
这就需要进行降维处理,
即用较少几
个
综合指标代替原来指标,
而且使这些综合指标既能尽量多地反
映原来指标所反映的信息,
同
时它们之间又是彼此独立的。
p>
线性组合:
记
x
1
,
x2
,…,
xP
为原变量指标
,
z1
,
z2
,…,
zm
(
m
≤
p
)为新变量指标
(主成分)
,则其线性组合为
p>
:
Lij
是<
/p>
原变量在各主成分上
的载荷
无论是哪一种因子分析方法,
其相应
的因子解都不是唯一的,
主因子解仅仅是无数因子
解中之一。<
/p>
zi
与
p>
zj
相互无关;
z1
是
x1
,
x2
,…,
xp
的一切线性组合中方差最大者
,
z2
是与
z1
不相关的
x1
,
x2
,…
的所有线性组合中
方差最大者。则,新变量指标
z1
,
z
2
,…分别称为原变量指标的第一,
第二,…主成分。
Z
为因子变量或公共因子,可以理解为在高维
空间中互相垂直的
m
个坐标轴。
p>
主成分分析实质就是确定原来变量
xj
(<
/p>
j=1
,
2
,
…,
p
)在各主成分
zi
(
i=1
,
2
,…,
m
)上的荷载
lij
。
从
数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的
m
个较大的特征值
所对应的特征向量。
5
分析步骤
5.1
确定
待分析的原有若干变量<
/p>
是否适合进行因子分析
(
第一步
)
因子分析是
从众多
的原始变量中重构少数几个具有代表意义的因子变量的过程。
其潜在
的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,
计算
原始变量之间的相关系数矩阵。
如果相关系数矩阵在进行
统计检验时,
大部分相关系数均
小
于<
/p>
0.3
且未通过检验,则这些原始变量就不太适合进行因子分析。
进行原始变量的相关分析
之前,
p>
需要对输入的原始数据进行标准化计算
(
一
般采用标准
差标准化方法,标准化后的数据均值为
0
,方差为
1
)
。
SPSS
在因子分析中还提供了几种判定是否
适合因子分析的检验方法。
主要有以下
3
种:
巴特利特球形检验(
Bartlett Test of
Sphericity
)
反映象相关矩阵检验(
Anti-image
correlation matrix
)
第
2
页
KMO
(
Kaiser-Meyer-
Olkin
)检验
(
1
)巴特利特球形检验
该检
验以变量的相关系数矩阵作为出发点,
它的零假设
H0
为相关系数矩阵是一个单位
阵,即相关系数矩阵对角线上的所有元素都为
1
,而所有非对角线上的元素都为
0<
/p>
,也即原
始变量两两之间不相关。
p>
巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。
如果
该值较大,
且其对
应的相伴概率值小于用户指定的显著性水平,
那么就应拒绝零假设
H0
,认为相关系数不可
< br>能是单位阵,也即原始变量间存在相关性。
(
2
)反映象相关矩阵检验
该检验以变量的偏相关系数矩阵作为出发点,
将偏相关系数矩阵的每个元素取反,<
/p>
得到
反映象相关矩阵。
偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,
如果变量之
间存在
较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。
p>
(
3
)
KMO
(
Kaiser-Meyer-
Olkin
)检验
该检验的统计量用于比较变量之间的简单相关和偏相关系数。
KMO
值介于
0-1
< br>,
越接近
1
,
< br>表明所有变量之间简单相关系数平方和远大于偏相关系数
平方和,越适合因子分析
。
其中,
Kaiser
给出一个
KMO
检验标准:
KMO>0.9
,非常适合;
求 子(主成分)所能代表的原始变量信息。
/ <
br>主要通过对载荷矩阵进行分析, <
br>第 <
br>关系,从而对新的因子变量进行命名。
0.8
,适合;
0.7
,一般;
p>
0.6
,不太适合;
KM
O<0.5
,不适合。
5.2
构造因子变量
因子分析中有很多确定
因子变量的方法,
如基于
主成分模型的主成分分析
和基于因子分
析模型的主轴因子法、极大似然法、最小二乘法等。前
者应用最为广泛。
主成分分析法(
Principal component
analysis
)
:
该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量
Zi
(主
成分)
。
相关系数矩阵的特征根
λ
i (
λ
1,
λ
2,
…
,
λ
p>0
)
和相应的标准正交的特征向量
li<
/p>
;
根
据相关系数矩阵的特征根,即公共因
子
Zj
的方差贡献(等于因子载荷矩阵
L
中第
j
列各元
素的平方和)
,计算公共因子
Zj
的
方差贡献率与累积贡献率。
主成分分析是在一个多维坐标轴中
,
将原始变量组成的坐标系进行平移变换,
使得新的
坐标原点和数据群点的重心重合。
新坐标第一轴与数据变化最大方向对应。
通过计算特征根
(方差贡献)
和方差贡
献率与累积方差贡献率等指标,
来判断选取公共因子的数量和公共因
公共因子个数的
确定准则:
1
)根据特征值的大小来确定,一般取大于
1
的特征值对应
的几个公共因子
/
主成分。
2
)根据因子的累
积方差贡献率来确定,一般取累计贡献率达
85-95%
的特征
值所对应的第一、第二、…、第
m
(
m
≤
p
)个主成分。也有学者认为累积方
差贡献率应在
80
%以上。
5.3
因子变量的命名解释
因子变量的命名
解释是因子分析的另一个核心问题
。经过主成分分析得到的公共因子
主成分
Z1,Z2,
…
,Zm
是对原有变量的综合。
原有变量是有物理
含义的变量,
对它们进行线性
变换后,得到的新的综合变量的物
理含义到底是什么?
在实际的应用分析中,
得到因子变量和原有变量之间的
3
页
利用因子旋转方法能使因子变量更具有可解
释性。
计算主成分载荷,构建载荷矩阵
A
。
计算主成分载荷,
构建载荷矩阵
A
。
载荷矩
阵
A
中某一行表示原有变量
Xi
与公共因子
/
因子
变量的相关关系。
载荷矩阵
A
中某一列
表示某一个公共因子
/
因子变量能够解释的原有
变量
Xi
的信息量。有时<
/p>
因子载荷矩阵的解释性不太好,通常需要进行因子旋转
,使原有因
子变量更具有可解释性
。因子旋转的主要方法:正交旋转、斜交
旋转
。
正交旋转和斜交旋转是因子旋
转的两类方法。
前者由于保持了坐标轴的正交性,
因此使
用最多。正交旋转的方法很多,其中以方差最大化法最为常用。
方差最大正交旋转(
varimax
orthogonal
rotation
)——基本思想:使公共因子的相对负
荷的方差之和最大,
且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具
< br>有最大载荷的变量数最小,因此可以简化对因子的解释。
斜交旋转(
oblique
rota
tion
)——因子斜交旋转后,各因子负荷发生了变化,出现了两
极分化。
各因子间不再相互独立,
而是彼此相关。
各因子对各变量的贡献的总和也发生了改
变。
斜交旋转因为因子间的相关性而不受欢迎。
但如果总体中各因子
间存在明显的相关关系
则应该考虑斜交旋转。适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,
因子旋转的目的:
是使因子负荷两极分化,
要么接近于
0
,要么接近于
1
。从而使原有因子变量
更具有可解释性。
5.4
计算因子变量得分
因子变量确定以后
,
对于每一个样本数据,
我们希望得到它们在不同因子上的具体
数据
值,即因子得分。估
计因子得分的方法主要有:回归法、<
/p>
Bartlette
法等。
计算因子得分
应首
先将因子变量表示为原始变量的线性组合。即:
回归法,即
Thomson
法:得分是由贝叶斯
Bayes
思想导出的,得到的因子得分是有偏
的,但计算结果误差较小。贝叶斯(
BAYES
)判别
思想是根据先验概率求出后验概率,并
依据后验概率分布作出统计推断。
Bartlett
法:
Ba
rtlett
因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得
分是无偏的,
但计算结果误差较大。
因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。
关于因子得分的进一步应用将在案例介绍一节分析。
5.5
结果的分析解释
此部分详细见案例分析
二、
案例分析
1
研究问题
石家庄
18
个县市
14
个指标因子,具体来说有人均
GDP(
元
/
人
)
、人均全社会固定
资产
投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占
GDP
比重
(%)
、<
/p>
第
4
页
<
/p>
人均社会消费品零售额、人均实际利用外资额(万美元
/
人)
、人均城乡居民储蓄存款、农民
人均纯收入
、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(
%
)
、每万人
拥有执业医师数量、每千人拥有病床数。
要求根据这
14
项
内容进行因子分析,得到维度较少的几个因子
。
2
实现步骤
【
1
】在“
Analyze
”菜单“
Data Reduction
”中选
择“
Factor
”命令,如下图所示。
【
2
】在弹出的下图所示的
Factor
Analysis
对话框中,
从对话框左侧的变量列表
中选择这
14
个变量,使之添加到
Variables
框中。
【
3
】点击“
Descriptives
”按钮,弹出“
Fact
or Analysis
:
Descriptives
”对话框,
如图所示。
Statistics
框用于选择哪些相关的统计量,其中:
Univariate descriptives
(变量描述
)
:
输出变量均值、标准差;
Initial solution
(初始结果)
Correlation Matrix
框中提供了几种检验变
量是否适
合做引子分析的检验方法,
其
中:
Coefficients
(
相关系数矩阵)
Significance leves
(显著性水平)
Determinant
(相关系数矩阵的行列式)
Inverse
(相关系数矩阵的逆矩阵)
Reproduced
(再生相关矩阵,原始相关与再生相关的差值)
Anti-image
(反影像相关矩阵检验)
KMO
and Bartlett
’
s test of
sphericity
(
KMO
检验
和巴特利特球形检验)
本例中,选中该对话框中所有选项,单
击
Continue
按钮返回
Fact
or Analysis
对话框。
【
4
】单击“
Extraction
p>
”按钮,弹出“
Factor Analysis
< br>:
Extraction
”对话框,选择
因子提取方法,如下图所示:
因子提取方法在
Method
下拉框中选取,
SPSS
共提供了
7
种方法:
Principle Components Analysis
(主成分分析)
Unweighted least
squares
(未加权最小平方法)
Generalized least squares
(综合最小平方法)
Maximum
likelihood
(最大似然估价法)
Principal axis factoring
(主轴因子法)
Alpha
factoring
(
α
因子)
Image factoring
(影像因子)
Analyze
框中用于选择
提取变量依据,其中:
Correlation matrix
(相关系数矩阵)
Covariance matrix
(协方差矩阵)
Extract
p>
框用于指定因子个数的标准,其中:
Eigenvaluse over
(大于特征值)
Number of
factors
(因子个数)
Di
splay
框用于选择输出哪些与因子提取有关的信息,其中:
Unrotated factor solution
(未经旋转的因子载荷矩阵)
第
5
页
Screen plot
(特征值排列图)
Maximun
interations for Convergence
框用于指定因子分析收敛<
/p>
的最大迭代次数
,
系统默认的最大迭代次
数为
25
。
本例选用
Principal
com
ponents
方法,选择相关系数矩阵作为提取因子变量的依
据,
选中
Unrotated factor
solution
和
Scree plot
项,
输出未经过旋转的因子载荷
矩
阵与其特征值的碎石图;选择
Eigenvaluse
ove
r
项,在该选项后面可以输入
1
,
p>
指定提取特征值大于
1
的因子。单击
Continue
按钮返回
Factor
Analysis
对话框。
【
5
】
单击
Facto
r Analysis
对话框中的
Rotation
按钮,
弹出
Factor Analysis:
Rotation
对话框,如下图所示:
该对话框用于选择因子载荷矩阵的旋转方法。
旋转目的是为了简化结构,
以
帮助我们解释因子。
SPSS
< br>默认不进行旋转(
None
)
。
Method
框用于选择因子旋转方
法,其中:
None
(不旋转)
Varimax
(正交旋转)
Direct
Oblimin
(直接斜交旋转)
Q
uanlimax
(四分最大正交旋转)
Equamax
(平均正交旋转)
Promax
(斜交旋转)
Display
框用于选择输出哪些与因子旋转有关的信息,其中:
p>
Rotated solution
(<
/p>
输出旋转后的因子载荷矩阵)
Loading
plots
(
输出载荷散点图)
p>
本例选择方差极大法旋转
Varimax
,
并选中
Rotated
solution
和
Loading
plot
项,
表示输出旋转后的因子载
荷矩阵和载荷散点图,
单击
Continue
< br>按钮返回
Factor
Analysis
对话框。
【
6
】单击
Facto
r
Analysis
对话框中的
Sc
ores
按钮,弹出
Factor
Analysis:
Scores
对话框,如下图所示:
该对话框用以选择对因子得分进行设置,其中:
Regression
(回归法)
:
因子得分均值为
0
,采用多元相关平方;
Bartlett
(巴特利法)
:因子得分均值为
0
,采用超出变量范围各因子平方和
被最小化;
Anderson-
Rubin
(安德森
-
洛宾法)
p>
:因子得分均值为
0
,标准差
1
,彼此不
相关;
Display factor score coefficient matrix
:
选择此项将在输出窗口中显示因子得
分系数矩阵。
【
7
< br>】
单击
Factor Analysis
对话框中的
Options
按钮,
弹出
Factor Analysis:
Options
对话框,如下图所示:
该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,
其中:
Missing
Values
框用于选择缺失值处理方法:
Exclude cases listwise
:
去除所有缺失值的个案
Exclude
cases
pairwise
:含有缺失值的变量,去掉该案例
Replace with
mean
:用平均值代替缺失值
Cofficient Display
Format
框用于选择载荷系数的显示格式:
Sorted by
size
:
载荷系数按照数值大小排列
第
6
页
Suppress absolute values less
than
:不显示绝对值小于指定值的载荷量
本例选中
Exclude
cases
listwise
项,单击
Conti
nue
按钮返回
Factor
Ana
lysis
对话框,完成设置。单击
OK
,完成计算。
3
结果与讨论
(
1
)
SPSS
输出的第一部分如下:
第一个表格中列出了
18
个原始变量的统计结果,包括平均值、标准差和分
析的个案数。
这个是步骤
3
中选中
Un
ivariate descriptives
项的输出结果
。
Descriptive
Statistics
人均
GDP(
元
/
人
p>
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
Mean
22600.5211
15190.9515
10270.3642
585.1712
29.0612
6567.2566
23.5667
Std. Deviation
8410.55464
5289.14499
4874.14616
550.45659
9.46858
3068.75463
40.31361
Analysis N
18
18
18
18
18
18
18
12061.2384
4852.5556
18110.3889
8.1548
1.3494
12.6883
2.3608
7363.08659
1202.52970
2374.05754
5.37552
.50193
8.88691
1.16077
18
18
18
18
18
18
18
(
2
)
SPSS
输出结果文件中的第二
部分如下:
该表格给出的
是
18
个原始变量的相关矩阵
Correlation Matrix
Correlation
人均
GDP(
元
/<
/p>
人
)
人均
GD
P(
元
/
人
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
1.000
.503
.707
.776
.567
.737
人均全社会固定
资产投资额
.503
1.000
.883
.571
.507
.247
人均城镇固定资
产投资额
.707
.883
1.000
.821
.759
.600
第
7
页
人均实际利用外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
.454
.356
.648
.707
.559
.789
.741
.582
.434
.573
Correlation Matrix
.480
-.073
.325
.470
.378
.520
.565
.780
.130
.544
.737
.486
.733
.761
Correlation
人均
p>
GDP(
元
/
人<
/p>
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
人均一般预算性<
/p>
第三产业占
GDP
人均社会消费品
财政收入
.776
.571
.821
1.000
.830
.693
.797
比重
(%)
.567
.507
.759
.830
1.000
.646
.822
零售额
.737
.247
.600
.693
.646
1.000
.616
.907
.132
.736
.795
.729
.818
.911
Correlation
Matrix
.882
.278
.548
.745
.575
.844
.806
.839
.516
.609
.812
.490
.627
.629
Correlation
人均
GDP(
元
/<
/p>
人
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
人均实际利
用外
资额(万美元
/
人)
.454
.356
.648
.797
人均城乡居民储
蓄存款
.707
.480
.780
.907
农民人均纯收入
.559
-.073
.130
.132
第
8
页
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
.822
.616
1.000
.882
.839
.792
.278
.516
-.007
.792
-.007
.388
.752
.570
.795
.784
Correlation Matrix
1.000
.264
.647
.868
.626
.885
.866
.264
1.000
.411
.315
.210
-.075
.000
Correlation
人均
p>
GDP(
元
/
人<
/p>
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
在岗职工平均工
资
.789
.325
.544
.736
.548
.609
.388
人才密度指数
.741
.470
.737
.795
.745
.812
.752
科技支出占财政
支出比重(
%
)
.582
.378
.486
.729
.575
.490
.570
.647
.411
1.000
.539
.421
.477
.575
.868
.315
.539
1.000
.577
.739
.719
.626
.210
.421
.577
1.000
.519
.769
Correlation
Matrix
Correlation
人均
p>
GDP(
元
/
人<
/p>
)
人均全社会固定资产投资额
每万人拥有执业
医师数量
.434
.520
每千人拥有病床
数
.573
.565
第
9
页
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支出占财政支出比
重
(
%
)
每万人拥有执业医师数量
每千人拥有病床数
.733
.818
.844
.627
.795
.761
.911
.806
.629
.784
.885
-.075
.477
.739
.519
1.000
.912
.866
.000
.575
.719
.769
.912
1.000
(
3
)
SPSS
输出结果的
第四部分如下:
KMO and Bartlett's
Test
Bartlett's
Test of Sphericity
Kaiser-Meyer-Olkin
Measure
of Sampling
Adequacy.
Approx. Chi-Square
df
Sig.
.551
324.227
91
.000 <
/p>
该部分给出了
KMO
检验和
Bartlett
球度检验结果。其中
KMO
值为
0.551
,
根
据统计学家
Kaiser
给出的标准,
KMO
取值小于
0.6
,不太适合因子
分析。
Bartlett
球度检验给
出的相伴概率为
0.00
,
小于显著性
水平
0.05
,
因此拒绝
Bartlett
球度检验的零假设,认为适合于因子分析。
(
4
)
SPSS
输出结果文件中的第六部分如下:
Communalities
p>
人均
GDP(
元
/
人
)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般预算性财政收入
第三产业占
GDP
比重
(%)
人均社会消费品零售额
人均实际利用
外资额
(万美元
/
人)
人均城乡居民储蓄存款
Initial
1.000
1.000
1.000
1.000
1.000
1.000
1.000
Extraction
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
第
10
页
-
-
-
-
-
-
-
-
-
上一篇:APA格式文内引用
下一篇:mla英语论文引用格式要求写