-
因子分析
?
因子分析
(
Factor analy
sis
)
:用少数几个因子来描述许多指标或因素之间
的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析
(
Principal
component
analysis
)
:是因子分析一个特例,是使用
最多的因子提取方法。
p>
它通过坐标变换手段,
将原有的多个相关变量,
做线性变
化,
转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,
这样达到
了因子分
析较少变量个数的目的,
同时又能与较少的变量反映原有变量的绝大部
< br>分的信息。
两者关系
:主成分
分析(
PCA
)和因子分析(
FA
p>
)是两种把变量维数降低
以便于描述、理解和分析的方法。
?
特点
(
1<
/p>
)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分
析能够减少分析中的工作量。
(
2
)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新
组构,它能够反映原有变量大部分的信息。
(
3
)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便
,
但原始部分变量之间多存在较显著的相关关系。
(
4
)因子变量具有命名解释性,即该变量是对某
些原始变量信息的综合和
反映。
在保
证数据信息丢失最少的原则下,
对高维变量空间进行降维处理
(
即通过
因子分析或主成分分析)
。显然,在一个低维空间解释系
统要比在高维系统容易
的多。
?
类型
<
/p>
根据研究对象的不同,把因子分析分为
R
型和
Q
型两种。
当研究对象是变量时,属于
R
型因子分析;
当研究对象是样品时,属于
Q
型因子分析。
但有的因子分析方法兼有
R
型和
Q
型因子分析的一些特点,
如因子分析中
的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别
。
?
分析原理
假定:有
< br>n
个地理样本,每个样本共有
p
个变量,构成一个
n
×
p
阶的地理
数据矩阵
:
?
x
p>
11
x
12
?
p>
x
1
p
?
?
x
?
x
?
x
21
22
2
p
?
< br>X
?
?
?
?
?
?
?
?
?
?
p>
x
x
?
x
?
n
2
np
?
?
n
1
?
当
p
较大时,
在
p
维空间中考察问题比
较麻烦。
这就需要进行降维处理,
即
用
较少几个综合指标代替原来指标,
而且使这些综合指标既能尽量多地反映原来
指标所反映的信息,同时它们之间又是彼此独立的。
线性组合:记
x1
,
x2
,?,
xP
为原变量指标,
z1
,
z2
,?,
zm
(
m
≤
< br>p
)为
新变量指标(主成分)
,
则其线性组合为
:
?
z
1
?
< br>l
11
x
1
?
l
12
x
2
?
?
?
l
1
p
x
p
p>
?
?
z
2
?
l
21
x
1
?
l
22
x
2
?
< br>?
?
l
2
p
x
p
?
?
?
p>
?
z
m
?
l
m
1
x
1
?
l
m
< br>2
x
2
?
?
?
l
mp
x
p
?
Li
j
是原变量在各主成分上的载荷
?
z
1
p>
?
l
11
x
1
?
l
12
x
2
?
?
?
l
1
p
< br>x
p
?
?
z
2
?
l
21
x
1
?<
/p>
l
22
x
2
p>
?
?
?
l
2
p
x
p
?
?
?
p>
?
z
m
?
l
m
1
x
1
?
l
m
< br>2
x
2
?
?
?
l
mp
x
p
?
无论
是哪一种因子分析方法,
其相应的因子解都不是唯一的,
主因子
解仅仅
是无数因子解中之一。
p>
zi
与
zj
相互无
关;
z1
是
x1
,
x2
,?,
xp
的一切线性组合中方差最大者,
z2
是与
z1
不相关的
x1
,
x2
,?的所有线
性组合中方差最大者。则,新变量指标
z1
,
< br>z2
,?分别称
为原变量指标的第一,第二,?主成分。
Z
为因子变量或公共因子,可以理解
为在高维空间中互相垂直的
m
个坐标
轴
。
主成分分析实质就是确定原来变量
xj
(
j=1
,
2
,
?,
p
)
在各主成分
zi
(
i=1
,
2
,?,
m
)上的荷载
lij
。
从
数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的
m
个较
大的特征值所对应的特征向量。
?
分析步骤
第一步:
< br>确定待分析的原有若干变量是否适合进行因子分析
因子
分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的
过程。其潜在
的要求:原有变量之间要具有比较强的相关性。因此,因子分析
需要先
进行相关分析,
计算原始变量之间的相关系数矩阵。
如果相关系
数矩阵在
进行统计检验时,大部分相关系数均小于
0.3
且未通过检验,则这些原始变量就
不太适合进行因子分析。
?
r
11
?
r
21
R
?
?
?
?
?
?
?
r
p
1
r
12
r
22
?
r
p<
/p>
2
ki
?
?
p>
?
?
r
1
p
?
r
2
p
?
?
?
< br>?
?
r
pp
?
?
r
ij
?
?
(
x
k
?
1
n
p>
k
?
1
n
?
x
i
)(
x
kj
?
x
j
)
2
2
< br>(
x
?
x
)
?
kj
j
k
?
1
n<
/p>
?
(
x
ki
p>
?
x
i
)
进行原始变量的相关分析之前,
需要对输入的
原始数据进行标准化计算
(一
般采用标准差标准化方法,标准化
后的数据均值为
0
,方差为
1
)
。
SPSS
在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要
有
以下
3
种:
巴特利特球形检验(
Bartlett Test of
Sphericity
)
反映象相关矩阵检验(
Anti-image
correlation matrix
)
KMO
(
Kaiser-Meyer-
Olkin
)检验
(
1
)巴特利特球形检验
该检
验以变量的相关系数矩阵作为出发点,它的零假设
H0
为相关系
数矩阵
是一个单位阵,即相关系数矩阵对角线上的所有元素都为
1
,而所有非对角线上
的元素都为
0<
/p>
,也即原始变量两两之间不相关。
巴特
利特球形检验的统计量是根据相关系数矩阵的行列式得到。
如果该值较
< br>大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设
H0
,认为相关系数不可能是单位阵,也即原始变量间存在相关性。
(
2
)反映象相关矩阵检验
该检验以变量的偏相关系数矩阵作为出发点,
将
偏相关系数矩阵的每个元素
取反,得到反映象相关矩阵。
p>
偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,
如果变
量之间存在较多的重叠影响,
那么偏相关系数就会较小,
这些变量越适合进行因
子分析。
p>
(
3
)
KMO
p>
(
Kaiser-Meyer-
Olkin
)检验
该检验的统计量用于比较变量之间的简单相关和偏相关系数。
KMO
值介于
0-1
< br>,
越接近
1
,
< br>表明所有变量之间简单相关系数平方和远大于
偏相关系数平方和,越适合因子分析
。
其中,
Kaiser
给出一个
KMO
检验标准:
KMO>0.9
,
非常适合;
0.8<
KMO<0.9
,
适合;
<
br>,不太适合;
基于主成分模型的主成分分析
<
br>2, p>0) li <
br>, <
br>
<
br>m 公共因子 <
br>a i <
br>? <
br>l 2 <
br>?
0.7
,一般;
0.6
KMO<0.5
,不适合。
第二步:构造因子变量
因子分析中有很多确定因子变量的方法,
如
和
基于因子分析模型的主轴因
子法、
极大似然法、
最小二乘法等
。<
/p>
前者应用最为广
泛。
主成分分析法(
Principal component
analysis
)
:
该方法通过
坐标变换,
将原有变量作
线性变化
,
转换为另外一组不相关的变
量
Zi
(主成分)
。求
相关系数矩阵的特征根
λ
i
(
λ
1,
λ
?
,
λ
和相应的标准
正交的特征向量
;
根据相关系数矩阵的特征根,
即公共因子
Zj
的
方差贡献
(
等
于因子载荷矩阵
L
中第
j
列各元素的平方和)
,
计算公共因子
Zj
的方
差贡献率与
累积贡献率。
i
?
k
p>
?
i
?
(
i
?
1
,
2
,
?
p
)
k
?
1
p
(
i
?
1
,
2
p>
,
?
,
p
)
p
?
?
k
?
k
?
k
?
1
k
?
1
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变
换,
使得新的坐标原点和数据群点的重心重合。
新坐标
第一轴与数据变化最大方
向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差
贡献率等指标,
来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信
息。
公共因子个数的确定准则:
<
/p>
1
)根据特征值的大小来确定,一般取大于
1
的特征值对应的几个公共因子
/
主
成分。
2
)
根据因子的累积方差贡献率来确定,
一般取累计贡献率达
85-
95%
的特征
值所对应的第一、第二、?、第
(
m
≤
p
)
个主成分。也有学者认为累积方差
贡献率应在
80
%以上。
第三步:因子变量的命名解释
因子变
量的命名解释是因子分析的另一个核心问题。
经过主成分分析得到的
/
主成分
Z1,Z2,<
/p>
?
,Zm
是对原有变量的综合。原有变量
是有物理含义的
变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什
么?
在实际的应用分析中,主要通过对载荷矩阵进行分析,得
到因子变量和原
有变量之间的关系,
从而对新的因子变量进行命
名
。
利用因子旋转方法能使因子
变量更
具有可解释性。
计算主成分载荷,构建载荷矩阵
A
。
ij
?
?
l
ij
(
i
,
j
?
1
,
2
,
?
p>
,
p
)
?
a
11<
/p>
a
12
...
a
1
m
?
?
p>
l
11
?
1
l
12
?
2
...
l
1
m
?
m
?
?
?
a
?
a
...
a
?
l
?
...
l
?
21
m
?
2
m
m
?
A<
/p>
=
?
21
?
p>
?
21
1
21
p>
2
?
...
...
...
...
?
?
...
...
...
...
?
?
?
?
?
?
a
p
1
a
p
1
.
..
a
pm
?
?
?
?
l
p<
/p>
1
?
1
l
p
1
?
2
...
l
pm
?
m
?
?
?
p>
x
1
?
a
11
z
1
?
a
12
z
2
?
?
?
a
< br>1
p
z
p
?
z
1
?
l
11
x
1
?<
/p>
l
12
x
2
p>
?
?
?
l
1
p
x
p
?
?
x
< br>?
a
z
?
a
z
?
?
?
a
z
?
z
p>
2
?
l
21
x
1
?
l
22
x
2
?
?
?
l
2
< br>p
x
p
?
2
21
1
22
2
2
p
p
?
?
?
?
p>
?
?
?
z
m
?
l
m
1
x
1
< br>?
l
m
2
x
2
?
?
?
l
mp
x
p<
/p>
?
x
m
?
a
m
1
z
1
?
a
m
2
z
2
?
?
?
a
mp
z
p
?
?
计算主成分载荷,构建载荷矩阵
A<
/p>
。载荷矩阵
A
中某一行表示原有变量
p>
Xi
与公共因子
/
因子变量的相关关系。载荷矩阵
A
中
某一列表示某一个公共因子
/
因子变量能够解释的原有变量
p>
Xi
的信息量。有时因子载荷矩阵的解释
性不太
好,
通常需要进行因子旋转,
使
原有因子变量更具有可解释性。
因子旋转的主要
方法:正交旋转
、斜交旋转。
?
< br>a
11
a
12
< br>...
a
1
m
< br>?
?
l
11
?
1
l
12
?
2
...
l
1
m
?
m
?
?
?
a
p>
?
?
a
...
p>
a
l
?
l
?
...
l
?
21
21
2
m
?
2
m
m
?
A
=
< br>?
?
?
21
1
21
2
?
...
...
...
...
?
?
...
...
...
...
?
?
?
?
?
p>
a
a
...
p>
a
?
p
1
pm
?
?
p
1
?
?
?
l
p
1
?
1
l
p
1
?
2
...
l
pm
?
m
?
?
正交旋转
和斜交旋转是因子旋转的两
类方法
。
前者由于保持了坐标轴的正交
性,因此使用最多。正交旋转的方法很多,其中以
方差最大化法
最为常用。
方差最大正交旋转(
v
arimax
orthogonal
rotation
)——基本思想:使公共因
子的相对负荷的方差之和最大,且保持原公共因子的正交
性和公共方差总和不
变。
可使每个因子上的具有最大载荷的变量
数最小,
因此可以简化对因子的解释。
斜交旋转(
oblique rotation
)——因子斜交旋转后,各因子负荷发生了变化,
出现了两极分化。
各因子间不再相互独立,
而是彼此相关。
各因子对
各变量的贡
献的总和也发生了改变。
斜交旋转因为因子间的相关性而不受欢迎。
但如果总体中各因子间存在明显
的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分化,
要么接近于
0
,要么接近于
1
。从而使原有因子变量更具有可解释性。
第四步计算因子变量得分
因子变量确
定以后,
对于每一个样本数据,
我们希望得到它们在不同因子上
的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、
Bartlette
法
等。计算因子得分应首先将因子变量
表示为原始变量的线性组合。即:
?
z
1
?
l<
/p>
11
x
1
?
p>
l
12
x
2
?
?
?
l
1
p
x
p
?
?
z
2
?
l
21
x
1
?
l
22
x
2
?<
/p>
?
?
l
2
p
x
p
?
?
?
?
z
m
?
l
m
1
x
1
?
l
m
2<
/p>
x
2
?
?
?
l
mp
x
p
?
回归法,即
p>
Thomson
法:得分是由贝叶斯
Bay
es
思想导出的,得到的因子
得分是有偏的,但计算结果误差较
小。贝叶斯(
BAYES
)判别思想是根据先验
概率求出后验概率,并依据后验概率分布作出统计推断。
Bartlett
法:
Bartlett
< br>因子得分是极大似然估计,也是加权最小二乘回归,得
到的因子得分是无偏的,但
计算结果误差较大。
因子得分可用于模型诊断,
也可用作进一步分析如聚类分析、
回归分析等的
原始
资料。关于因子得分的进一步应用将在案例介绍一节分析。
5.5
结果的分析解释
此部分详细见案例分析
Spss
实现
【
1
】
p>
在“
Analyze
”菜单“
Dimension Reduction
”中选择“
Factor
”命令,如下
图所示。
【
2
p>
】在弹出的下图所示的
Factor
An
alysis
对话框中,从对话框左侧的变量列表
中选择这
p>
9
个变量,使之添加到
Variables
框中。
【
3
】点击“
Descriptives
”按钮,弹出“
Factor Analysis
:
Descriptives
”对话框,
如图所示。
Stat
istics
框用于选择哪些相关的统计量,其中:
Univariate descriptives
(变量描述
)
:输出变量均值、标准差;
Initial solution
(初始结果)
Correlation Matrix
框中提供了几种检验变
量是否适合做引子分析的检验方法,
其
中:
Coefficients
(相关系数矩阵)
Significance leves
(显著性水平)
Determinant
(相关系数矩阵的行列式)
Inverse
(相关系数矩阵的逆矩阵)
Reproduced
(再生相关矩阵,原始相关与再生相关的差值)
Anti-image
(反影像相关矩阵检验)
KMO
and Bartlett
’
s test of
sphericity
(
KMO
检验
和巴特利特球形检验)
本例中,选中该对话框中所有选项,单
击
Continue
按钮返回
Fact
or Analysis
对话框。
【
4
】单击“
Extraction
p>
”按钮,弹出“
Factor Analysis
< br>:
Extraction
”对话框,选择
因子提取方法,如下图所示:
因子提取方法在
Method
下拉框中选取,
SPSS
共提供了
7
种方法
:
Principle Components
Analysis
(主成分分析)
Unweighted least
squares
(未加权最小平方法)
Generalized least squares
(综合最小平方法)
Maximum
likelihood
(最大似然估价法)
Principal axis factoring
(主轴因子法)
Alpha
factoring
(
α
因子)
Image factoring
(影像因子)
Analyze
框中用于选择提取变量依据,其中:
Correlation matrix
(相关系数矩阵)
Covariance matrix
(协方差矩阵)
Extract
p>
框用于指定因子个数的标准,其中:
Eigenvaluse over
(大于特征值)
Number of
factors
(因子个数)
Di
splay
框用于选择输出哪些与因子提取有关的信息,其中:
Unrotated factor solution
(未经旋转的因子载荷矩阵)
-
-
-
-
-
-
-
-
-
上一篇:核心期刊的区别
下一篇:类别数据分析 第四讲