-
聚类分析原理及步骤
——将未知数据按相似程度分类到不同的类或簇的过程
1
》
传统的
统计聚类分析方法包括系统聚类法、分解法、加入法、
动态聚类法、有序样品聚类、有重
叠聚类和模糊聚类等。采用
k-
均值、
k-
中心点等算法的聚类分析工具已被加入到许多著名
的统计分
析软件包中,如
SPSS
、
SAS
p>
等。
典型应用
1
》
动植物分类和对基因进行分类
2
》
在网上进行文档归类来修复信息
3
》
帮助电子商务的用户了解自己的客户,向客户提供更合适
的服务
主要步骤
1
》
数据预
处理——选择数量,类型和特征的标度(
(依据特
征选择和抽取
)特征选择选择重要的特征,特征抽取把输
入的特征转化为一个新的显著特征,
它们经常被用来获取
一个合适的特征集来为避免“维数灾”进行聚类)<
/p>
和将孤
立点移出数据
(孤立点是不依附于
一般数据行为或模型的
数据)
2
》
为衡量
数据点间的相似度定义一个距离函数——既然相
类似性是定义一个类的基础,
那么不同数据之间在同一个
特征空间相似度的衡量对于聚类步骤是很重要的
,
由于特
征类型和特征标度的多样性,距离度量必须谨慎,它经
常
1
/
6
文档可自由编辑
< br>依赖于应用,例如,通常通过定义在特征空间的距离度量
来评估不同对象的相异性
,
很多距离度都应用在一些不同
的领域一个简单的距离度量,如
Euclidean
距离,经常被
用作
反映不同数据间的相异性,一些有关相似性的度量,
例如
PMC
和
SMC
,能够被用来特征化不同数据
的概念相似
性,在图像聚类上,子图图像的误差更正能够被用来衡量
两个图形的相似性
3
》
聚类或
分组——将数据对象分到不同的类中【划分方法
(划分方法一般从初始划分和最优化一个
聚类标准开
始
,
Crisp
Clustering
和
Fuzzy Clusterin
p>
是划分方法
的两个主要技术,
Crisp
Clustering
,它的每一个数据都
属于单独的类;
Fuzzy
Clustering
,它的每个数据可能在
任何一个类中)和层次方法(基于某个标准产生
一个嵌套
的划分系列,
它可以度量不同类之间的相似性或一个类
的
可分离性用来合并和分裂类)是聚类分析的两个主要方
法,另
外还有基于密度的聚类,基于模型的聚类,基于网
格的聚类】
4
》
评估输
出——评估聚类结果的质量
(它是通过一个类有效
索引来评价,
,一般来说,几何性质,包括类间的分离和
类内部的耦合,一般
都用来评价聚类结果的质量,类有效
索引在决定类的数目时经常扮演了一个重要角色,<
/p>
类有效
索引的最佳值被期望从真实的类数目中获取,
一个通常的
2
/
6
文档可自由编辑
< br>决定类数目的方法是选择一个特定的类有效索引的最佳
值,
这个索引能否真实的得出类的数目是判断该索引是否
有效的标准,
很多已经存在的标准对于相互分离的类数据
集合都能得出很好的结果,但是对于复杂
的数据集,却通
常行不通,例如,对于交叠类的集合。
)
聚类分析的主要计算方法原理及步骤
划分法
1
》
将数据
集分割成
K
个组
(每个组至少包含一个
数据
且每一个数据纪录属于且仅属于一个分组)
,每个
组成为一类
2
》
通过反
复迭代的方法改变分组,
使得每一次改进之
后的分组方案都较前
一次好
(标准就是:
同一分组
中的记录
越近越好,而不同分组中的纪录越远越
好,使用这个基本思想的算法有:
K-MEANS
算法、
K-MEDOIDS
算法、
CLARANS
算法)
层次法
1
》
“自底向上”方案——将每个数据单独作为一组,
通过反
复迭代的方法,把那些相互邻近的组合并成一个组,直到所
有的
记录组成一个分组或者某个条件满足为止,
代表算法有:
BIR
CH
算法、
CURE
算法、
CHAMELEON
算法等
2
》“自顶向下”方案
主要算法原理及步骤
3
/
6
文档可自由编辑