关键词不能为空

当前您在: 主页 > 英语 >

spss分类分析

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-12 21:49
tags:

-

2021年2月12日发(作者:tornadoes)





第八章



分类分析






第一节


K-Means Cluster


过程



8.1.1


主要功能




调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。


所谓逐步聚类分析< /p>


就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。



8.1.2


实例操作




[例


8.1


]为研究儿童生长发育的分期,调查


1253



1


月至


7


岁儿童的身高(


cm


)、


体重(


k g


)、胸围(


cm


)和坐高(


cm


)资料。资料作如下整理:先把


1


月至


7


岁划成


19


个月份段,


分月份算出各指标的平均值,


将 第


1


月的各指标平均值与出生时的各指标平均值


比较,求出月平均增长率(


%


),然后第


2


月起的各月份指标平均值均与前一月比较,亦求


出 月平均增长率(


%


),结果见下表。欲将儿童生长发育分为四期 ,故指定聚类的类别数为


4


,请通过聚类分析确定四个儿童生长 发育期的起止区间。





月份



身高



1


2


3


4


6


8


10


12


15


18


24


30


36


42


48


54


60


66


72


11.03


5.47


3.58


2.01


2.13


2.06


1.63


1.17


1.03


0.69


0.77


0.59


0.65


0.51


0.73


0.53


0.36


0.52


0.34


月平均增长率(


%






















体重



50.30


19.30


9.85


4.17


5.65


1.74


2.04


1.60


2.34


1.33


1.41


1.25


1.19


0.93


1.13


0.82


0.52


1.03


0.49



8.1.2.1


数据准备




激活数据管理窗口,


定义变量名:


虽然月份分组不作分析变量,


但为了更直观地了解聚


类结果,也将之输入数据库,其变量名为


month


;身高、体重、胸围和坐高的变量名分别为


x1



x2



x3



x4


,输入原始 数额。





8.1.2.2


统计分析




激活


Statistics


菜单选


Classify


中的

< br>K-Means Cluster...


项,弹出


K-Means Cluster Analysis


1 / 11


胸围



11.81


5.20


3.14


1.47


1.04


0.17


1.04


0.89


0.53


0.48


0.52


0.30


0.49


0.16


0.35


0.16


0.19


0.30


0.18


坐高



11.27


7.18


2.11


1.58


2.11


1.57


1.46


0.76


0.89


0.58


0.42


0.14


0.38


0.25


0.55


0.34


0.21


0.55


0.16


对话框(如图


8.1


示)。从对话框左侧的 变量列表中选


x1



x2



x3



x4


,点击


?


钮使之进入


Var iables


框;在


Number of Clusters< /p>


(即聚类分析的类别数)处输入需要聚合的组数,本例



4


;在聚类方法上有两种:


Iterate and classify


指先定初始类别中心点,而后按


K- means



法作叠代分类,


Clas sify only


指仅按初始类别中心点分类,本例选用前一方法。





为在原始数据库中逐一显示分类 结果,点击


Save...


钮弹出


K- Means Cluster:Save New


Variables


对话框,


选择


Cluster membership


项,


点击


Continue

< p>
钮返回


K-Means Cluster Analysis


对话框。




本例还要求对聚类结果进行方差分析,故点击


Options...< /p>


钮弹出


K-Means Cluster:



Options


对话框,



Statistics


栏中选择


ANOVA table


项,


点击


Continue


钮返回


K-Means Cluster

Analysis


对话框,再点击


OK

钮即完成分析。





8.1.2.3


结果解释




在结果输出窗口中将看到如下统计数据:




首先系统根据用户的指定,按


4


类聚合确定初始聚类的各变量中心点,未经


K-means


算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。




Initial Cluster Centers.


Cluster X1 X2 X3 X4


1 11.0300 50.3000 11.8100 11.2700


2 5.4700 19.3000 5.2000 7.1800


3 3.5800 9.8500 3.1400 2.1100


4 .3400 .4900 .1800 .1600




Convergence achieved due to no or small distance change.


The maximum distance by which any center has changed is .0000


Current iteration is 2




Minimum distance between initial centers is 10.5200




Iteration Change in Cluster Centers


1 2 3 4


1 .0000 .0000 2.46E+00 1.27E+00


2 .0000 .0000 .0000 .0000




Case listing of Cluster membership.


Case ID Cluster Distance


1 1 .000


2 2 .000


3 3 2.457


4 4 3.219


5 3 2.457


6 4 1.530


7 4 1.346


8 4 .515


9 4 .915


10 4 .266


11 4 .281


12 4 .668


13 4 .467


14 4 .844


15 4 .415


16 4 .873


17 4 1.215


18 4 .619


19 4 1.269




Final Cluster Centers.


Cluster X1 X2 X3 X4


1 11.0300 50.3000 11.8100 11.2700


2 5.4700 19.3000 5.2000 7.1800


3 2.8550 7.7500 2.0900 2.1100


4 .9060 1.4660 .4820 .6560





之后对聚类结果的类别间距离进行方差分析,


方差分析表明,


类别间距离差异的概率值


< p>
<0.001


,即聚类效果好。这样,原有


19< /p>


类(即原有的


19


个月份分组)聚合成< /p>


4


类,第一


类含原有

1


类,第二类含原有


1


类,第三类 含原有


2


类,第四类含原有


15


类。具体结果系


2 / 11


统以变量名< /p>


QCL_1


存于原始数据库中。



Distances between Final Cluster Centers.


Cluster 1 2 3 4


1 .0000


2 32.4397 .0000


3 45.3400 13.2521 .0000


4 52.2325 20.0924 6.9273 .0000




Analysis of Variance.


Variable Cluster MS DF Error MS DF F Prob


X1 37.5806 3 .369 15.0 101.7853 .000


X2 817.1164 3 1.354 15.0 603.2588 .000


X3 45.4089 3 .281 15.0 161.1145 .000


X4 46.0994 3 .235 15.0 195.4933 .000




Number of Cases in each Cluster.


Cluster unweighted cases weighted cases


1 1.0 1.0


2 1.0 1.0


3 2.0 2.0


4 15.0 15.0


Missing 0


Valid cases 19.0 19.0




Variable Saved into Working File.


QCL_1 (Cluster Number)






在原始数据库(图


8.2


)中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长


发育分期定为:







第一期,出生后至满月,增长率最高;



第二期,第


2


个月起至第


3


个月,增长率次之;



第三期,第


3


个月起至第


8


个月,增长 率减缓;



第四期,第


8


个月后,增长率显著减缓。





8.2


逐步聚类分析的分类结果




第二节


Hierarchical Cluster


过程



8.2.1


主要功能




调用此过程可完成系统聚类分析。


在系统聚类分析中,


用户事先 无法确定类别数,


系统


3 / 11


将所有例数均调入内存,


且可执行不同的聚类算法。


系统聚类分 析有两种形式,


一是对研究


对象本身进行分类,


称为


Q


型举类;


另一是对研究 对象的观察指标进行分类,


称为


R


型聚 类。




8.2.2


实例操作




[例


8.2



29

名儿童的血红蛋白(


g/100ml


)与微量元素(


μ


g/100ml


)测定结果如下表。


由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即


R


型指标聚类)筛选代表


性指标,以便更经济快捷地评价儿童的营养状 态。




编号



N0.


1


2


3


4


5


6


7


8


9


10


11


12


13


14


15


16


17


18


19


20


21


22


23


24


25


26


27


28


29




X1


54.89


72.49


53.81


64.74


58.80


43.67


54.89


86.12


60.35


54.04


61.23


60.17


69.69


72.28


55.13


70.08


63.05


48.75


52.28


52.21


49.71


61.02


53.68


50.22


65.34


56.39


66.12


73.89


47.31




X2


30.86


42.61


52.86


39.18


37.67


26.18


30.86


43.79


38.20


34.23


37.35


33.67


40.01


40.12


33.02


36.81


35.07


30.53


27.14


36.18


25.43


29.27


28.79


29.17


29.99


29.29


31.93


32.94


28.55




X3


448.70


467.30


425.61


469.80


456.55


395.78


448.70


440.13


394.40


405.60


446.00


383.20


416.70


430.80


445.80


409.80


384.10


342.90


326.29


388.54


331.10


258.94


292.80


292.60


312.80


283.00


344.20


312.50


294.70




X4



0.012



0.008



0.004



0.005



0.012



0.001



0.012



0.017



0.001



0.008



0.022



0.001



0.012



0.000



0.012



0.012



0.000



0.018



0.004



0.024



0.012



0.016



0.048



0.006



0.006



0.016



0.000



0.064



0.005




X5


1.010


1.640


1.220


1.220


1.010


0.594


1.010


1.770


1.140


1.300


1.380


0.914


1.350


1.200


0.918


1.190


0.853


0.924


0.817


1.020


0.897


1.190


1.320


1.040


1.030


1.350


0.689


1.150


0.838


血红蛋白



X6


13.50


13.00


13.75


14.00


14.25


12.75


12.50


12.25


12.00


11.75


11.50


11.25


11.00


10.75


10.50


10.25


10.00



9.75



9.50



9.25



9.00



8.75



8.50



8.25



8.00



7.80



7.50



7.25



7.00



8.2.2.1


数据准备




激活数据管理窗口,定义变量名:钙、镁、铁、锰、铜和血红 蛋白的变量名分别为


x1



x2



x3



x4



x5



x6


,之后输入原始数据。



4 / 11




8.2.2.2


统计分析




激活


Statistics


菜单选


Cl assify


中的


Hierarchical


Cluster...


项,弹出


Hierarchic al


Cluster


Analysis

对话框(图


10.3


)。从对话框左侧的变量列表中选


x1



x2



x3



x4



x5



x6


,点击


?


钮使之进入


Variable(s)


框;在


Cluster


处选择聚类类型 ,其中


Cases


表示观察对象聚类,


Variables


表示变量聚类,本例选择


Variable s






点击


Statistics...


钮, 弹出


Hierarchical Cluster Analysis: Statistics


对话框,选择


Distance


matrix


,要求显示距离矩阵,点击


Co ntinue


钮返回


Hierarchical Cluster Analysis


对话框(图


8.4


)。





本例要求系统输出聚类结果的树状关系图,故点击


Plots...


钮弹出


Hierarchical


Cluster


Analysis:Plots


对话框,


选择


Dendrogram


项,


点击


Continue


钮 返回


Hierarchical Cluster Analysis


对话框。




点击


Method...


钮弹出


Hierarchical Cluster Analysis:Method

对话框,


系统提供


7


种聚类方


法供用户选择:




Between-groups linkage


:类间平均链锁法;





Within-groups linkage


:类内平均链锁法;




Nearest neighbor


:最近邻居法;




Furthest neighbor


:最远邻居法;




Centroid clustering


:重心法,应与欧氏 距离平方法一起使用;




Median clustering


:中间距离法,应与欧氏 距离平方法一起使用;




Ward's method


:离差平方和法,应与欧氏距离平方法一起使用。




本例选择类间平均链锁法


(系统默认 方法)。在选择距离测量技术上,系统提供


8


种形


式供用户选择:




Euclidean distance


Euclidean


距离,


即两观察单位间的距离为其值差 的平方和的平方根,


该技术用于


Q


型聚 类;




Squared Euclidean distance



Euclidean


距离平方,即两观察单位间的距离为其值差的平


方和,该技术用 于


Q


型聚类;




Cosine


:变量矢量的余弦,这 是模型相似性的度量;




Pearson correlation


:相关系数距离,适 用于


R


型聚类;




Chebychev



Chebychev


距离,即两观察单位间的距离为其任意变量的最大绝对差 值,


该技术用于


Q


型聚类;

< p>



Block



City-Block< /p>



Manhattan


距离,即两观察单 位间的距离为其值差的绝对值和,适


用于


Q

型聚类;




Minkowski


:距离是一个绝对幂的度量,即变量绝对值的第


p


次幂之和的平方根;


p



用 户指定




Customized


:距离是一个绝对幂的度量,即变量绝对值的第


p

< br>次幂之和的第


r


次根,


p



r


由用户指定。




本例选用


Pearson corr elation



点击


Continu e


钮返回


Hierarchical Cluster Ana lysis


对话框,


再点击


OK


钮即完成分析。





8.2.2.3


结果解释




在结果输出窗口中将看到如下统计数据:



5 / 11

-


-


-


-


-


-


-


-



本文更新与2021-02-12 21:49,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/646069.html

spss分类分析的相关文章

  • 余华爱情经典语录,余华爱情句子

    余华的经典语录——余华《第七天》40、我不怕死,一点都不怕,只怕再也不能看见你——余华《第七天》4可是我再也没遇到一个像福贵这样令我难忘的人了,对自己的经历如此清楚,

    语文
  • 心情低落的图片压抑,心情低落的图片发朋友圈

    心情压抑的图片(心太累没人理解的说说带图片)1、有时候很想找个人倾诉一下,却又不知从何说起,最终是什么也不说,只想快点睡过去,告诉自己,明天就好了。有时候,突然会觉得

    语文
  • 经典古训100句图片大全,古训名言警句

    古代经典励志名言100句译:好的药物味苦但对治病有利;忠言劝诫的话听起来不顺耳却对人的行为有利。3良言一句三冬暖,恶语伤人六月寒。喷泉的高度不会超过它的源头;一个人的事

    语文
  • 关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

    鲁迅名言名句大全励志1、世上本没有路,走的人多了自然便成了路。下面是我整理的鲁迅先生的名言名句大全,希望对你有所帮助!当生存时,还是将遭践踏,将遭删刈,直至于死亡而

    语文
  • 三国群英单机版手游礼包码,三国群英手机单机版攻略

    三国群英传7五神兽洞有什么用那是多一个武将技能。青龙飞升召唤出东方的守护兽,神兽之一的青龙。玄武怒流召唤出北方的守护兽,神兽之一的玄武。白虎傲啸召唤出西方的守护兽,

    语文
  • 不收费的情感挽回专家电话,情感挽回免费咨询

    免费的情感挽回机构(揭秘情感挽回机构骗局)1、牛牛(化名)向上海市公安局金山分局报案,称自己为了挽回与女友的感情,被一家名为“实花教育咨询”的情感咨询机构诈骗4万余元。

    语文