-
大数据建模需要了解的九大形式
数据挖掘是利用业务知识从数据中发现和解释知识
(
或称为模式
)
的过程,
这
种知识是以自然或者人工形式创造的新知识。
当
前的数据挖掘形式,
是在
20
世纪
p>
90
年代实践领域诞生的,
是在集成数据<
/p>
挖掘算法平台发展的支撑下适合商业分析的一种形式。
也许是因为
数据挖掘源于
实践而非理论,在其过程的理解上不太引人注意。
20
世纪
90
年代晚期发展的
CRISP-DM
,
逐渐成为数据挖掘过程的一
种标准化过程,
被越来越多的数据挖掘实
践者成功运用和遵循。
虽然
CRISP-DM
能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什
么或者为什么适合
这样做。
提出数据挖掘的九种准则或
“定律”
< br>以及另外其它一
些熟知的解释。从理论上来解释数据挖掘过程。
< br>
第一,目标律:业务目标是所有数据解决方案的源头。
它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。
数据挖掘主要不是一种技术,
而是一个过程,
业务目
标是它的的核心。
没有业务
目标,
没有
数据挖掘
(
不管这种表述是否清楚
)<
/p>
。
因此这个准则也可以说成:
数据
挖掘是业务过程。
第二,知识律:业务知识是数据挖掘过程每一步的核心。
这里定义了数据挖掘过程的一个关键特征。
CRISP-DM<
/p>
的一种朴素的解读是
业务知识仅仅作用于数据挖掘过程开始的目标
的定义与最后的结果的实施,
这将
错过数据挖掘过程的一个关键
属性,即业务知识是每一步的核心。
为了方便理解,我使用
CRISP-
DM
阶段来说明:
?
商业理解必须基于业务知识,所以
数据挖掘目标必须是业务目标的映射
(
这
种映射也基于数据知识和数据挖掘知识
);
?
数据理解使用业务知识理解与业务
问题相关的数据,以及它们是如何相关
的
;
?
数据预处理就是利用业务知识来塑
造数据,
使得业务问题可以被提出和解答
(
更详尽的第三条—准备律
);
?
建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,
也就是说理解它们之间的业务相关性
;
?
评估是模型对理解业务的影响
;
?
实施是将数据挖掘结果作用于业务过程
;
总之,没有业务知识,数据挖掘过程的每一步都是无效的,也没有“纯粹的
技术”步
骤。
业务知识指导过程产生有益的结果,并使得那些有益的结
果得到
认可。
数据挖掘是一个反复的过程,
业务知识是它的核心,
驱动着结果的持续改
善。
这背后的原因可以用
“鸿沟的表现”
(chasm
of
representati
on)
来解释
(Alan
Montg
omery
在
20
世纪
90
年代对数据挖掘提出的一个观点
)
。
Montgomery
指出数
据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一部分
;
数据和现实世
界是有差距
(
或“鸿
沟”
)
的。在数据挖掘过程中,业务知识来弥补这一差距,在<
/p>
数据中无论发现什么,
只有使用业务知识解释才能显示其重要性,
数据中的任何
遗漏必须通过业务知识弥补。
只有业务知识才能弥补这种缺失,
这是业务知识为
什么是数
据挖掘过程每一步骤的核心的原因。
第三,准备律:数据预处
理比数据挖掘其他任何一个过程都重要。
这是数据挖掘著名的
格言,
数据挖掘项目中最费力的事是数据获取和预处理。
非正式
估计,其占用项目的时间为
50%-80%
。最简单的解释可以
概括为“数据是
困难的”
,经常采用自动化减轻这个“问题”的
数据获取、数据清理、数据转换
等数据预处理各部分的工作量。
虽然自动化技术是有益的,
支持者相信这项技术
可以减
少数据预处理过程中的大量的工作量,但这也是误解数据预处理在数据
挖掘过程中是必须的原因。
数据预处
理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术
(
如数据挖掘算法
)
更容易利用它。数据任何形式的变化
(
包括清理、最大最小值
转换、增长等
)
意味着问题空间的变化,因此这种分析必须是探索性的。这是数
p>
据预处理重要的原因,
并且在数据挖掘过程中占有如此大的工作量,
这样数据挖
掘者可以从容地操纵问题空间,使得容易找到适合分
析他们的方法。
有两种方法
“塑造”
这个问题空间。
第一种方法是将数据转化为可以分析的
完全格式化的数据,
比如,
大多数数据挖掘算法
需要单一表格形式的数据,
一个
记录就是一个样例。
数据挖掘者都知道什么样的算法需要什么样的数据形式,
因
此可以将数据转化为一个合适的格式。
第二种方法是使得数据能够含有业务问题
的更多的信息,
例如,
某些领域的一些
数据挖掘问题,
数据挖掘者可以通过业务
知识和数据知识知道这
些。
通过这些领域的知识,
数据挖掘者通过操纵问题空间
可能更容易找到一个合适的技术解决方案。
因此,
通过业务知识、
数据知识、
数据
挖掘知识从根本上使得数据预处理更
加得心应手。
数据预处理的这些方面并不能通过简单的自动化实现。
这个定律也解释了一个有疑义的现象,
也就是虽然经过数据获取、
p>
清理、
融
合等方式创建一个数据仓库,
p>
但是数据预处理仍然是必不可少的,
仍然占有数据
< br>挖掘过程一半以上的工作量。此外,就像
CRISP-DM
展示的那样,即使经过了主
要的数据预处理阶段,
在创建一个
有用的模型的反复过程中,
进一步的数据预处
理的必要的。
p>
有五种因素说明试验对于寻找数据挖掘解决方案是必要的:
?
数据挖掘项目的业务目标定义了兴
趣范围
(
定义域
)
,
数据挖掘目标反映了这
一点
;
?
与业务目标相关的数据及其相应的
数据挖掘目标是在这个定义域上的数据
挖掘过程产生的
;
?
这些过程受规则限制,而这些过程产生的数据反映了这些规则
;
?
在这些过程中,
< br>数据挖掘的目的是通过模式发现技术
(
数据挖掘算法
p>
)
和可以
解释这个算法结果的业务知识相结
合的方法来揭示这个定义域上的规则
;
?
数据挖掘需要在这个域上生成相关
数据,
这些数据含有的模式不可避免地受
到这些规则的限制。<
/p>
在这里强调一下最后一点,在数据挖掘中改变业务目标,
CRISP-DM
有所暗
示,但经常不易被觉
察到。广为所知的
CRISP-DM
过程不是下一个步骤仅接着
上
一个步骤的“瀑布”式的过程。事实上,在项目中的任何地方都可以进行任何
CRISP-DM
步骤,同样商业理解也可以存在于任何一个步骤。业务
目标不是简单
地在开始就给定,
它贯穿于整个过程。
这也许可以解释一些数据挖掘者在没有清
晰的业务目标的情况下开始项目,
他们知道业务目标也是数据挖掘的一个结果,
不是静态地给定。
Wolpert
的“没有免费的午餐”理论已经应用于机器学习
领域,无偏的状态
好于
(
如一个具体的
算法
)
任何其他可能的问题
(
数据集
)
出现的平均状态。这是
因为,
如果我们考虑所有可能的问题,
他们的解决方
法是均匀分布的,
以至于一
个算法
(<
/p>
或偏倚
)
对一个子集是有利的,
而对另一个子集是不利的。
这与数据挖掘
者所知
的具有惊人的相似性,
没有一个算法适合每一个问题。
但是经过
数据挖掘
处理的问题或数据集绝不是随机的,
也不是所有可能问
题的均匀分布,
他们代表
的是一个有偏差的样本,那么为什么要
应用
NFL
的结论
?
< br>答案涉及到上面提到的
因素:问题空间初始是未知的,多重问题空间可能和每一个
数据挖掘目标相关,
问题空间可能被数据预处理所操纵,
模型不
能通过技术手段评估,
业务问题本身
可能会变化。
由于这些原因,
数据挖掘问题空间在数据挖掘过程中展开,
< br>并且在
这个过程中是不断变化的,
以至于在有条件的约束
下,
用算法模拟一个随机选择
的数据集是有效的。对于数据挖掘
者来说:没有免费的午餐。
这大体上描述了数据挖掘过程。<
/p>
但是,
在有条件限制某些情况下,
比如业
务
目标是稳定的,
数据和其预处理是稳定的,
< br>一个可接受的算法或算法组合可以解
决这个问题。在这些情况下,一般的数据挖掘
过程中的步骤将会减少。但是,如
果这种情况稳定是持续的,数据挖掘者的午餐是免费的
,或者至少相对便宜的。
像这样的稳定性是临时的,因为对数据的业务理解
(
第二律
)
和对问题的理解
(
第
九律
)<
/p>
都会变化的。
第五,模式律
(
大卫律
)
:数据中总含
有模式。
这条规律最早由
David
Watkins
提出。
我们可能预料
到一些数据挖掘项目
会失败,
因为解决业务问题的模式并不存在
于数据中,
但是这与数据挖掘者的实
践经验并不相关。
前文的阐述已经提到,
这是因为:
在一个与业务相关的数据集中总会发现一
些有趣的东西,
< br>以至于即使一些期望的模式不能被发现,
但其他的一些有用的东
< br>西可能会被
发现
(
这与数据挖掘者的实践经验是相关的
);
除非业务
专家期望的
模式存在,
否则数据挖掘项目不会进行,
这不应感到奇怪,
因为业务专家通常是
对的。
p>
然而,
Watkins
< br>提出一个更简单更直接的观点:
“数据中总含有模式。
”
这与
数据挖掘者的经验比前面的阐述更一致。
这个观点后来经过
Watkins
修正,
基于
客户关系的数据挖掘项目,
总是存在着这样的模式即客户未来的行为总是和
先前
-
-
-
-
-
-
-
-
-
上一篇:如何对待有自杀倾向的人
下一篇:2016江西省高考语文试题及答案解析