-
第九讲
系统聚类分析
人们往往会碰到通过划分同类属性的对象很好的解决问题的情形,
而不论这些对象是个
体、公司、产品甚至行为。为此常用的技巧是聚类分析。聚类分析
将个体或对象分类,使得
同一类的对象之间的相似性比与其他类的对象的相似性更强。<
/p>
目的在于使类间对象的同质性
最大化和类与类间对象的差异性最大
化。
一、
导言
近些年类,
统计学的多元分析方法有了迅速的发展,
多元分析技术自然被引用到分类学
中,于是从数值分类逐渐分离出聚类分析这个新的分支。
我们认为,所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系)
< br>。
于是根据一批样品的多个观测指标,
具体找出一些能够
度量样品或指标之间的相似度的统计
量,以这些统计量为划分类型的依据,把一些相似度
较大的样品(或指标)
,聚合为一类,
把另一类彼此之间相似程
度较大的样品
(或指标)
又聚合为另一类,
关系密切的聚合到一个
小的分类单位,
关系疏远的聚合到一
个大的分类单位,直到把所有样品
(或指标)
都聚合完
毕,
把不同类型一一划分出来,
形成一个由小到
大的分类系统。
最后把整个分类系统画成一
张分类图(又称谱系
图)
,用它把所有样品(或指标)间的亲疏关系表示出来。
<
/p>
在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主
p>
要靠经验和专业知识,
作定性分析处理,
致
使许多分类带有主观性的任意性,
不能很好的揭
示客观事物内在
本质差别和联系,
特别是对于多因素、
多指标的分类问题,
p>
定型分类更难以
实现准确分类。
为了克服定型分类时存在的不足,
统计学这个有用的工具逐渐被引进到分
类学中,
形成
数值分类学。
随着多元分
析的引进,
聚类分析可以用来对案例进行分类,
也可以用来对变
量
进行分类。对样品的分类常称为
Q
型
聚类分析,对变量的分类常称为
R
型聚类分析。与多
元分类的其他方法相比,
聚类分析的方法是很粗糙的,
理论上还不完善,
但由于它能解决许
多实际问题,很受人们
的重视,和回归分析、判别分析一起被称为多元分析的三大方法。
SPSS for Windows
的系统聚类分析其统计结
果与图形有凝聚顺序表、相似矩阵、聚类
成员结果的范围;且可绘制垂直冰柱图、水平冰
柱图或树状结构图等。
聚类分析根据用户选择不同的聚类方法
、不同的量度、是否标准化、不同联结的图形,
其分类的结果是不尽相同的。
二、
样品(
Q
型)聚类分析
以地
级行政单元作为区域分析的对象,利用多元统计分析方法对河北省
11
< br>个地级市的
农村基础设施状况进行分析。
其指标的选择主
要根据代表性原则、
综合性原则、
系统性原则、
易获得性原则,
选取
2007
年河北省社会经济发展指标因子
8
项,
组成一个原始数据矩阵
X
,
作为分析的
依据。所选取的指标有:乡村劳动力资源(
x
1
)
、农用机械总动力(
x
2<
/p>
)
、农村用
电量(
x
3
)
、农村社会总产值(
x
4
)
、自来水受益村
(x
5
)
、通
电话村
(x
6
)
、有效灌溉面积
(x
7
)
、
农村运输业固定资产(
x
8
)
。
表
9-1
指
标数据表
乡
村
劳
农
用
机
械
动
力
资
p>
总
动
力
源(人
)
(
千
瓦
)
农
村
p>
用
电
农村社会
量<
/p>
(
万
千
总
产
值
瓦
小
时
)
(
万
元
)
624877
113192
448244
241519
321625
68599
121829
537227
386814
267634
农
村
p>
运
自
来
受
通电村
有
效
灌
输
业
固
益
村
数
溉
面
p>
积
定
资
产
(
个
)
(
个
)
(
公
顷
) <
/p>
(
万
元
)
3980
3785
847
4590
4954
4116
2863
1620
5679
3164
4933
4418
5020
2262
5347
5172
6210
4067
2552
5741
3222
4982
495628
499068
124364
535707
553587
655113
249021
138738
561042
283788
473719
525146
547760
138657
435227
379118
431368
159708
182419
332882
280718
138165
城市
石家庄
唐山
秦皇岛
邯郸
邢台
保定
张家口
承德
沧州
廊坊
衡水
资料来源:
2008
年河北农村统计年鉴
(一)
打开
SPSS 11.5
输入数据后选
择
Analyze/Classify/Hierarchical
Cluster...
得到
图
9-1
图
9-1
单击打开系统聚类分析主对
话框见图
9-2
。
①
Variable
(变量)列表,进行聚类分析的变量。本例为
x
1
p>
--
x
8
②
Lable Cases
by
(识别个案)
,本例为城市
③
Cluster
< br>(聚类方法)
,可以选择
Case
(样本聚类)或
Variables
(指标聚类)
。
④
Display
(显示)
?
Statistics
(统计量)
,系统分析的统计量。
?
Plots
(图形)
,冰柱图(
Icicle
)
、树状图(
Dendrogram
)等
图
9-2
(二)单击
Statistics
打开
系统聚类分析统计量对话框见图
9-3
图
9-3
?
Agglomeration
schedule
(凝聚顺序表)
,显示每阶段中结合的个案(分类)的距离及每
个引入聚类的个案(变量)的最终聚类水平,本案例选择此项。
?
Proximity matri
x
(相似性矩阵)
,显示项目间的距离或相似性。本案例选择此
项。
Cluster Membership
(聚类成员)
,显示各个案分配到
1
< br>个或
1
个以上级别的聚类结合。
?
None
(不显示聚类成员)
。这是默认格式。
?
Single solution
(单一聚类成员)
。若选此项,应设定
Number of cluster(
聚类数
)
,必须输
入一个大于
1
的整
数。
?
Range of solutions
(某范围聚类成员)<
/p>
,若选此项应设定
Minimum number of
cluster
及
Maximum number of
cluster
(最大聚类数)
。
<
/p>
(三)单击
Continue/Plots
,打开
Hierarchical Cluster Analysis
:
Plots
(系统聚类分析:图形)
对话框,见图
9-4
图
9-4
?
Dendrogram
(树形图)
,树
形图可直观的表示系统聚类分析过程每步结合的聚类及
聚类系数值。
竖线的连接表示个案的结合,
树状图将实际距离按比例赋值为
0~25
,
并隐藏每步的距离比。
树
状图可用于评估聚类模型的凝聚性,
并且提供保持适当聚
类的信
息。树状图是
SPSS
的独特风格,一般均选择此项。
Icicle
(冰
柱图)
,显示包括所有聚类和聚类范围冰柱图。可显示个案合并到聚类的
过程,在图形的底部未合并任何个案,从下往上阅读时,通过
X
或条进行聚类合并,不同
的分类通过项目间的空格表示。冰柱图显示分析中每次
迭代的个案结合到聚类的信息。
?
All cluster(
所有聚类的冰柱图
< br>)
,这是默认格式
?
Specified range
of cluster
(某指定范围的冰状图)
,
应当设定
Start Cluster
(起始分类)
、
Stop cluster
(结束分
类)
,及
By
(间隔)
。
?
None
不显示冰状图。
②
Orientation
(方向)
,可选择
Vertical(
垂直冰状图
)
或
Horizonal
(水平冰状图)
。
(四)单击
p>
Continue/Method
,打开(系统聚类分析:方法)对
话框,见图
9-5
Cluster
Method
(聚类方法)下拉菜单
Between-gropes
linkage
(组间均联法)
。
Within-groups
linkage(
组内均联法
)
Nearest
neighbor
(近邻法)又称最短距离法或单联法
Furthest
neighbor
(远邻法)又称最长距离法或完全关联法
Centroid
Clustering
(重心聚类法)又称质心法
Median
Cluster(
中位数聚类法
)
Ward
'
s
Methord(Ward
法
)
-
-
-
-
-
-
-
-
-
上一篇:~市场部管理体系
下一篇:新版广州版小学四年级英语上册教案全册