关键词不能为空

当前您在: 主页 > 英语 >

第十一讲 集群分析

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-16 13:14
tags:

-

2021年2月16日发(作者:注资)



11


集群分析



11-1


、集群分析的基本理论



11-2


、集群分析的操作与结果解析







11




集群分析






11-1


、集群分析的基本理论



【研究问题】:以学校组织文化、学校组织气氛、校长领导角色等变项是否可


将学校分成有意义的群组?



某研究者采分层丛集取样 方法,抽取十五所学校,以探究校长领导角色、学校


组织气氛、学校组织文化与学校校能 关系,十五所学校教师各施予校长领导角色、


学校组织气氛、学校组织文化与学校校能四 种量表,以探究校长领导角色、学校组


织气氛、学校组织文化等三个变项对学校校能的影 响,研究者除探讨变项间的相关


外,也想知道如以校长领导角色、学校组织气氛、学校组 织文化等三个变项作为分


类依据,是否可将十五所学校分成几个大群组,以进一步探讨群 组学校间之学校校


能的差异,


及群组间相似之处。


对于此问题,


研究者所要运用的统计分析方法为


「集


群分析法」。



集群分析


(cluster analysis)


也是一种多变量分析程序,其目的在于将数据分成几


个相异性最大的群组,而 群组间的相似程度最高。研究者如果认为观察值间并非全


部同质,在资料探索分析方面, 集群分析是一个非常有用技巧。由于集群分析时,


使用之分析方法不同,结果便有所不同 ,不同研究者对同一观察值进行集群分析时,


所决定的集群数也未必一致,因而集群分析 较偏向于探索性分析方法,在研究应用


上,


常与区别分析一起使 用


(


吴明隆,



89)



观察值之集群分析应用与区别分析相似,

< p>
均在于将独立分开的观察值分成不同组别


(groups)


或将观察值分类,


二者主要差别在


于区别分析时,组别 特性已知,而集群分析时,观察值所属群组特性还未知。此外,


在集群分析前,


研究者尚不知道独立观察值可分为多少个群组


(


集群


)



其集群数不知


道,而集群的特性也无从得知。




11-2





11




集群分析






集群分析主要的方法是使用一组的计量数据,加以计算各观察 体的相似性或相


异性,然后使用各种分析的方法,将这些观察体加以分类,进而能更有效 地掌握各


集群的性质,是故集群分析所关注的重点有四


(


陈正昌、程炳林,民


83)




1.


如何以数量来表示观察体与观察体间的相似性?



2.


如何根据这些相似性将性质类似的观察体分为一个集群?



3.


所有观察体分类完毕后,对每一集群的性质应如何描述?



4.


分类后的每一集群有何特征,与其它集群有何不同之处?



集群分析的一般步骤,系先计算各观察体间的距离或组内误差矩阵,然后将最


接近的两个观察体加以合并成一集群,再算出合并后的观察体间距离或组内误差矩


阵,重复以上计算步骤,直到所有观察体合并成同一集群。根据学者


Hair


等人


(1992)


观点,集群分析与因素分析一 样,偏向于艺术层次而非科学,比较属于探索性的分


析方法,因为集群数目的选取有时会 因研究者研究观点差异与研究目的,而有所差


异。不过,在集群分析合并过程中,组内的 距离或误差会愈来愈大,如果某个分析


合并的系数值突然变得很大,研究者就可以据以判 断该分成几个集群


(


陈正昌、程炳


林, 民


83)




变项的集群分析应用则相似于因素分析,二者进行的程序均在于辨认变项的相


关组别。因 素分析时,只有一个潜在的理论模式,而集群分析时则蕴涵着一个以上


的潜在理论模式。 多数实际应用时,二者的主要差别,在于因素分析是针对「变项」


予以分组;而集群分析 则是将「观察值个体」予以分组,亦即,因素分析时,根据


依变项


(


题项


)


间之关系密切与否,将变项 予以分群(分为几个层面因素);而集群分


析则较常使用于将变项属性相似程度较高的观 察值,加以分群,使集群与集群间的


异质性达到最大,而同一集群内观察值同构型很高。




11-3





11




集群分析






如果集群分析的对象是变项,则变项集群分析结果与变项因素 分析结果,往往


会有差异出现,其原因在于二者处理变项间关系方式不同,集群分析所采 取的是一



「阶层式」


(hierar chical)


的判别,


依据个别变项间相关强弱情形逐次合并 变项集群,


而因素分析在聚合变项时,则是「同时」考虑到所有变项间的关系。



集群分析方法,主要有二种,一为「阶层式集群分析法」



(hierarchical


cluster


analysis)


,二为「


K


Means


集群分析法」,如果观察值的个数较多或数据 文件非常


庞大


(


通常观察值在


200


个以上


)


,以采 用「


K



Means

< br>集群分析法」较为适宜,因为


观察值数量太多,


冰柱图< /p>


(icicle plots)


与树形图


(dendrograms)


二种判别图形,


在呈现

< p>
时会过于分散,不易令人阅读与解释


(


吴明隆,民


89)




使 用「


K



Means

< br>集群分析法」时,通常要订定事先集群数目,进行分析次数可


能较为多次,研究者 可运用全体观察值中部份数据进行「阶层式集群分析法」,以


作为决定集群数的参考。如 果观察值数不多,则采用「阶层式集群分析法」较为适


宜。


< /p>


阶层式集群分析法中,根据观察值或变项间距离,将最相似对象结合在一起,


以逐次聚合的方式


(agglomerative clustering)


,将观察值分组。计算观察值相似性最


常用的方法是欧几里得距 离平方法


(square Euclidean distance)

< br>。欧几里得距离平方


法在计算观值的相异程度时,会随着测量单位不同而不同。< /p>



当研究者进行集群分析时,要考虑到以下几点


(SPSS


Inc.



1998


;吴明隆,民


89)




1.


标准化程序


变项间单位如果不同,原始数值较大的变项,在距离测量演算程序的结果上,


也会获 得较大的数值。为克服因测量单位不同而造成距离相异性结果值计算的差异,



11-4





11




集群分析






可将不同单位的变项加以转换,常用者为转换成


Z


分数,使每个变项的平均数均变为


0


、而标准偏差均成为


1


。不同量表所测量的变项数据 ,在进行集群分析时,最好依


标准化程序将原始数据转换,如果是使用「


K



Means


集群分析法」 ,则分析进行的


第一个步骤就是要将原始分数以标准化程序转换。



2.


距离度量


< br>集群分析进行时,在判别观察值相异性或相似性程度的演算中,阶层式集群分


析程 序提供数种距离或相似性的测量方法,如果观察值间相似程度很高,则计算出


的彼此距离 测量值很小


(


相异性很低


)

< p>
、相似性测量值很大。


测量观察值个体距离最常


用 的方法为「欧几里得距离平方法」;而在变项集群分析中,计算变项相似程度值


最常用的 方法则为积差相关法。



3.


集群合并 的准则-连结法


(linking method)


在结合或 连结集群方法方面,阶层式集群分析法提供了七种不同方法:组间连


< br>法


(between-groups


linkage)











(average


linkage


between


groups)


、组 内连结法


(within-groups linkage)


、近邻法


(nearest neighbo r)


或称单一连


结法


(single linkage)


、远邻法


(furthest neighbor)


或称完全连结法


(complete li nkage)



形心集群法


(cent roid


clustering)


、中位数集群法

< p>
(median


cluster)


、华德法


(Ward's


method)



SPSS


内定方法为组间连结法,在大部分的研究中,均采用此一方法 。在


集群分析的每个步骤中,会进行三种不同的合并:一为两个相似性最大对象


(


观察值


或变项


)


被合并;二为二个相异性最小集群也被合并;三为一个与集群相似程度最大

< br>的对象也会被合并。相异性程度计算与合并步骤重复进行,直到最后所有对象将被


合并成一个大集群。




11-5





11




集群分析






4.


数据与图形


集群分析的变项,


可以为等距变项


(interval d ata)



次数


(count)


变项


(frequencies)


或二分变项


(binary data)


。依变项属性不同,计算观察值间 距离方法也不同,变项如


以次数为测量标准,则以「


Chi- square


measure


」法较为适宜,亦即,二个变项 距


离的测量,则使用卡方考验方法,考验两集合出现的次数是否相等;如果是二元变


量数据,应使用二元变量相异性相关公式,如


SPSS


内定之「二元欧几里得距离平方


法」。观察值相似程度计算值,会因选用公式 不同而有所差异。



阶层式集群分析法报表中,集群数目的决定 除参考观察值聚合顺序表外,最重


的是参考分析法中所绘的冰柱图与树形图。在报表呈现 时,这二个图形最好一并打


印出来。



集群分析在以往大都使用在医学方面,如将各种疾病加以分类;或在商业营销


上将各种客 户加以分群,以详细分析各群客户间之差异及同构型。在教育应用上,


根据各县市教育发 展指标量数,将各县市教育发展状况,分成几个不同的集群,并


比较这些县市群间的差异 情形。此外,也可以根据一般观众的特性,将电视节目分


成不同的群组,集群分析也广泛 应用于市场营销方面。应用集群分析方法,可将独


立的观察值合并为少数有意义的群组, 使得群组间的特性更为明显。



集群分析意义的图示如下:左边 方框为所有观察体的分布情形,零散而没有意


义,经由观察体某些相似的变项性质,将具 有类似性质的观察体合并为一个集群,


形成少数有意义而具有某种共同性的群体。



集群一









集群二



集群三





11-6





11




集群分析






11-2


、集群分析的操作与结果解析



(



)


、操作 方法



执行【分析】


/


【分类】


/


【阶层集群分析法


...


】程序




出现「阶层集群分析法」(


Hierarchical Cluster Analysis


)对话窗口。


< p>
将左边空格内「组织文化


[cul]


」、「组织气 氛


[cli]


」、「领导角色


[rol ]


」三个变


量选入右边「变量」(


Va riable(s):


)空格内。



说明



如果集群分析的对象是


「观察值」


的话,


则至少要选取一个数值变量;


如果集群分析的对象是「变项」


(或变量)


则至少要选取三个数值变


量才可以。




在「集群」方盒中选取「⊙ 观察值」



Cases


)选项(此时是 将观


察值分成不同集群,如果要将变量分成集群,则选取『变量』选

项)






在「显示」



Display


)方盒中勾选「□统计量」



Statistics




「□


图形」



Plots


)二个选项。




11-7





11




集群分析









按『统计量


...


』(

Statistics



)钮,出现「阶层集群分析法:统 计量」次对话窗


口。





勾选内定之「□群数凝聚过程」(


Agglomeration schedule


)选项,以产生观察


值聚合顺序表。如不要限 定集群的数目,在「各集群组员」方盒中勾选内定的


『无』选项。





如果要限定集群的单一数目, 则勾选『单一集群选项』;如要限定集群个数范


围,则勾选『集群个数范围』选项。





按『继续』 钮,回到「阶层集群分析法」(


Hierarchical Cluster Analysis


)对话


窗口。





11-8





11




集群分析






下图为勾选


『集群个数范围』



分析出的集群数目限定在2个集群至4个集群间。

< br>



说明



「□近似性矩阵」


(Proximity Matrix)


会产生个体之间的距离或相似性。


在「各集群组员」



Cluster Membership


)方盒中有三个选项


< br>1.


「⊙无」



None



:不印出集群个体,此为内定选项。



2.


「◎单一集群」


Single solution:



:印出单一集群的成 员。如研究


者想了解划分成四个集群时,集群内的成员各为那些观察值,可


选取此项,并在其后的空格中输入「4」


,画面如下:




「⊙单一集群:






4






集群」



3.


「◎集群个数范围」



Range of solutions



:印出某范围内集群的


成员。如研究 者相了解分成2个、3个、4个集群、5个集群时,


各集群内的个体为何,可选取此项, 而在下面的空格中分别输入


2



5


,如:



⊙集群個數範圍




(Range of solutions)









2














5








集群



(From





2







through





5







clusters)



11-9





11




集群分析










「阶层集群分析法」


< br>Hierarchical Cluster Analysis



对话窗口中,



『图形


.. .



钮,出现「阶层集群分析法:图形」(

Hierarchical Cluster Analysis: Plots


)次


对话窗口。





选取「□树形图」(


Dendrogram


)。





在「冰柱图」(

< br>Icicle


)方盒中选取「⊙全部集群」(


All clusters


)选项。





在「方向」(

Orientation


)方盒中选取「⊙垂直」(


Ver tical


)选项,以呈现垂


直冰柱图。如果选取「水平」选项 ,则出现水平冰柱图




< p>
按『继续』钮(钮),回到「阶层集群分析法」



Hierarchical Cluster Analysis



对话窗口。







『方法


...




Method



钮,


出现


「阶层集群分析法:


方法



Hierarchical Cluster


Analysis: Methods


)次对话窗口。





在「集群方法」(


Cluster


M ethod:


)右边下接式选项中,选取内定的方法「群


间连结 法」(


Between-groups linkage


)。





在「测量」(

Measure


)方盒中,选取内定之「⊙区间」(


Int erval


)选项,在


其右边下拉式选单中选取「欧基里得直线 距离平方」(


Squared


Euclidean



11-10





11




集群分析






distance


)。





在「转换值」(


Transform


Values


)方盒中,「标准化」


(Standardize :)


的右边


下拉式选项中,选取「


Z< /p>


分数」(


Z scores


)。





并勾选内定之「⊙依据变量」(


By variable


)选项


(


将变项化为标准化分数


)






按『继续』钮,回到「阶层集群分 析法」(


Hierarchical Cluster Analysis


)对话


窗口。





按『确定』钮。



< br>(



)


、结果说明



近似性




观察值处理摘要


(a)


观察值



有效



遗漏



总和



个数



百分比



个数



百分比



个数



百分比




11-11





11




集群分析






15


100.0%


0


.0%


15


100.0%


a


欧几里得距离平方



使用的




说明



使用欧几里得距离平方法来求观 测值间相异性大小,


有效观察值的个


数有


15



(15


所学校


)




集群



均连法



(


组间


)



群数凝聚过程



先出现的阶段集


阶段



组合集群



系数





下一阶


集群


1


集群


2


集群


1


集群


2




1


14


15


2.749E-02


0


0


3


2


9


10


8.429E-02


0


0


8


3


11


14


.251


0


1


6


4


2


5


.382


0


0


7


5


7


8


.410


0


0


11


6


11


13


.453


3


0


9


7


2


4


.478


4


0


12


8


6


9


.744


0


2


11


9


11


12


.869


6


0


14


10


1


3


1.112


0


0


12


11


6


7


1.148


8


5


13


12


1


2


1.321


10


7


13


13


1


6


6.267


12


11


14


14


1


11


8.974


13


9


0


说明




11-12





11




集群分析






采用平均链接法,观察值聚合顺序表,其中各栏意义如下:



1.


第一栏「阶段」


(Stage)


代表分析步骤,集群分析时共有


14


个 步


骤。



2.


第二栏「集群


1



(Cluster


1)


表示要进行合并的观察值之编号较


小者。


集群


(


观察值

< br>)


合并后以编号较小者为新观察值


(

新集群


)


的编


号。



3.


第三栏


「集群


2



(Cluster 2)


表示要进行合并的观察值


(


集群


)


之编


号较大者。



4.


第四栏「系数」


(coeffi cients)


:合并后的组内差异系数,此为欧


几里得距离的 平方。此值的数值愈小表示二个观察值成员同构型


愈高,相异性愈小。合并的观察值愈多 ,成员间的差异性会愈来


愈大,因而相异性系数值会愈来愈大,如果紧邻的二个步骤,其


相异性系数差异太大,表示新集群中成员的差异性很高,二个观


察体较不适合再合并成一个新集群组。



5.


第五栏「集群


1



(Clus ter


1)


表示正要进行合并之编号较小的观


察值


(


集群


)


,前一次进行合并时出现的阶段。



6.

< p>
第六栏「集群


2



(Cl uster


2)


表示正要进行合并之编号较大的观

< p>
察值


(


集群


)

< p>
,前一次进行合并时出现的阶段。



7.


合并之后新的观察值


(


集群

< br>)


下一次要进行合并的阶段。



以上表为例,步骤


1


为观察值


14


与观察值


15


合并,合并后的差异系数为< /p>


.027


,新


观察值

(


新集群


)


的编号为


14(


现内有编号成员


14



15


二者


)



下一次进行合并的地方为


步骤


3(< /p>


或阶段


3)




在步骤


3


中,观察值

< br>11


与观察值


14


合并,合并后 的差异系数为


.251


,其中观察值



11-13

-


-


-


-


-


-


-


-



本文更新与2021-02-16 13:14,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/658798.html

第十一讲 集群分析的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文