-
数据挖掘的基本流程
数据挖掘有很多不同的实
施方法,如果只是把数据拉到
Excel
表格中计算一下,那只
是数据分析,不是数
据挖掘。本节主要讲解数据挖掘的基本规范流程。
< br>CRISP-DM
和
SEMMA
是两种常用的数据挖掘流程。
2.5.1
数据挖掘的一般步骤
从数据本身来考
虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖
掘实施过程、模式评估和知识表示
8
个步骤。
< br>
步骤(
1
)信息收集:根据确
定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的
信息收集方
法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库
是至关重要的。
步骤(
2
)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提
供
全面的数据共享。
步骤(
3
)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需
要很长的时间,而做商业运
营数据挖掘时数据量往往非常大。数据规约技术可以用来得到
数据集的规约表示,它小得多,但仍然接近
于保持原数据的完整性,并且规约后执行数据
挖掘结果与规约前执行结果相同或几乎相同。
步骤
(
4
)
数据清理:
在数据库中的数据有一些是不完整的
(有些感兴趣的属性缺少属性值)
、
含噪声的
(包
含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、
正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
步骤(
5
)数据变换:通过平滑聚
集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于
有些实数型数据
,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(
6
)数据挖掘过程:根据数据仓库中的数据信息,选择合
适的分析工具,应用统计方法、事例推理、
决策树、规则推理、模糊集,甚至神经网络、
遗传算法的方法处理信息,得出有用的分析信息。
步骤(
p>
7
)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确
性。
步骤(
8
)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知
识库中,供其他应用程序使用。
-
-
-
-
-
-
-
-
-
上一篇:七堇年《尘曲》经典语录
下一篇:幼儿心理学经典案例分析题及解析23089