关键词不能为空

当前您在: 主页 > 英语 >

大数据建模 需要了解的九大形式

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-02 13:58
tags:

-

2021年3月2日发(作者:cornerstone)


大数据建模需要了解的九大形式



< p>
数据挖掘是利用业务知识从数据中发现和解释知识


(


或称为模式


)


的过程,


< p>
种知识是以自然或者人工形式创造的新知识。



当 前的数据挖掘形式,


是在


20


世纪


90


年代实践领域诞生的,


是在集成数据< /p>


挖掘算法平台发展的支撑下适合商业分析的一种形式。


也许是因为 数据挖掘源于


实践而非理论,在其过程的理解上不太引人注意。


20


世纪


90


年代晚期发展的


CRISP-DM



逐渐成为数据挖掘过程的一 种标准化过程,


被越来越多的数据挖掘实


践者成功运用和遵循。



虽然


CRISP-DM


能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什


么或者为什么适合 这样做。


提出数据挖掘的九种准则或


“定律”

< br>以及另外其它一


些熟知的解释。从理论上来解释数据挖掘过程。

< br>


第一,目标律:业务目标是所有数据解决方案的源头。



它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。


数据挖掘主要不是一种技术,


而是一个过程,


业务目 标是它的的核心。


没有业务


目标,


没有 数据挖掘


(


不管这种表述是否清楚


)< /p>



因此这个准则也可以说成:


数据


挖掘是业务过程。



第二,知识律:业务知识是数据挖掘过程每一步的核心。



这里定义了数据挖掘过程的一个关键特征。


CRISP-DM< /p>


的一种朴素的解读是


业务知识仅仅作用于数据挖掘过程开始的目标 的定义与最后的结果的实施,


这将


错过数据挖掘过程的一个关键 属性,即业务知识是每一步的核心。



为了方便理解,我使用


CRISP- DM


阶段来说明:



?



商业理解必须基于业务知识,所以 数据挖掘目标必须是业务目标的映射


(



种映射也基于数据知识和数据挖掘知识


);


?



数据理解使用业务知识理解与业务 问题相关的数据,以及它们是如何相关



;


?



数据预处理就是利用业务知识来塑 造数据,


使得业务问题可以被提出和解答


(

更详尽的第三条—准备律


);


?



建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,


也就是说理解它们之间的业务相关性


;


?



评估是模型对理解业务的影响


;


?



实施是将数据挖掘结果作用于业务过程


;

总之,没有业务知识,数据挖掘过程的每一步都是无效的,也没有“纯粹的


技术”步 骤。



业务知识指导过程产生有益的结果,并使得那些有益的结 果得到


认可。


数据挖掘是一个反复的过程,

业务知识是它的核心,


驱动着结果的持续改


善。

< p>


这背后的原因可以用


“鸿沟的表现”

< p>
(chasm


of


representati on)


来解释


(Alan


Montg omery



20


世纪


90


年代对数据挖掘提出的一个观点


)



Montgomery


指出数


据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一部分


;

数据和现实世


界是有差距


(


或“鸿 沟”


)


的。在数据挖掘过程中,业务知识来弥补这一差距,在< /p>


数据中无论发现什么,


只有使用业务知识解释才能显示其重要性,


数据中的任何


遗漏必须通过业务知识弥补。

只有业务知识才能弥补这种缺失,


这是业务知识为


什么是数 据挖掘过程每一步骤的核心的原因。



第三,准备律:数据预处 理比数据挖掘其他任何一个过程都重要。



这是数据挖掘著名的 格言,


数据挖掘项目中最费力的事是数据获取和预处理。


非正式 估计,其占用项目的时间为


50%-80%


。最简单的解释可以 概括为“数据是


困难的”


,经常采用自动化减轻这个“问题”的 数据获取、数据清理、数据转换


等数据预处理各部分的工作量。


虽然自动化技术是有益的,


支持者相信这项技术


可以减



少数据预处理过程中的大量的工作量,但这也是误解数据预处理在数据


挖掘过程中是必须的原因。



数据预处 理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术


(


如数据挖掘算法


)


更容易利用它。数据任何形式的变化


(


包括清理、最大最小值


转换、增长等


)


意味着问题空间的变化,因此这种分析必须是探索性的。这是数


据预处理重要的原因,


并且在数据挖掘过程中占有如此大的工作量,


这样数据挖


掘者可以从容地操纵问题空间,使得容易找到适合分 析他们的方法。



有两种方法


“塑造”


这个问题空间。


第一种方法是将数据转化为可以分析的


完全格式化的数据,


比如,


大多数数据挖掘算法 需要单一表格形式的数据,


一个


记录就是一个样例。

< p>
数据挖掘者都知道什么样的算法需要什么样的数据形式,



此可以将数据转化为一个合适的格式。


第二种方法是使得数据能够含有业务问题


的更多的信息,


例如,


某些领域的一些 数据挖掘问题,


数据挖掘者可以通过业务


知识和数据知识知道这 些。


通过这些领域的知识,


数据挖掘者通过操纵问题空间


可能更容易找到一个合适的技术解决方案。



因此,


通过业务知识、


数据知识、


数据 挖掘知识从根本上使得数据预处理更


加得心应手。



数据预处理的这些方面并不能通过简单的自动化实现。



这个定律也解释了一个有疑义的现象,


也就是虽然经过数据获取、


清理、



合等方式创建一个数据仓库,


但是数据预处理仍然是必不可少的,


仍然占有数据

< br>挖掘过程一半以上的工作量。此外,就像


CRISP-DM


展示的那样,即使经过了主


要的数据预处理阶段,


在创建一个 有用的模型的反复过程中,


进一步的数据预处


理的必要的。



有五种因素说明试验对于寻找数据挖掘解决方案是必要的:



?



数据挖掘项目的业务目标定义了兴 趣范围


(


定义域


)


数据挖掘目标反映了这


一点


;


?



与业务目标相关的数据及其相应的 数据挖掘目标是在这个定义域上的数据


挖掘过程产生的


;


?



这些过程受规则限制,而这些过程产生的数据反映了这些规则


;


?



在这些过程中,

< br>数据挖掘的目的是通过模式发现技术


(


数据挖掘算法


)


和可以


解释这个算法结果的业务知识相结 合的方法来揭示这个定义域上的规则


;


?



数据挖掘需要在这个域上生成相关 数据,


这些数据含有的模式不可避免地受


到这些规则的限制。< /p>



在这里强调一下最后一点,在数据挖掘中改变业务目标,


CRISP-DM


有所暗


示,但经常不易被觉 察到。广为所知的


CRISP-DM


过程不是下一个步骤仅接着 上


一个步骤的“瀑布”式的过程。事实上,在项目中的任何地方都可以进行任何


CRISP-DM


步骤,同样商业理解也可以存在于任何一个步骤。业务 目标不是简单


地在开始就给定,


它贯穿于整个过程。

< p>
这也许可以解释一些数据挖掘者在没有清


晰的业务目标的情况下开始项目, 他们知道业务目标也是数据挖掘的一个结果,


不是静态地给定。



Wolpert


的“没有免费的午餐”理论已经应用于机器学习 领域,无偏的状态


好于


(


如一个具体的 算法


)


任何其他可能的问题


(


数据集


)


出现的平均状态。这是


因为,


如果我们考虑所有可能的问题,


他们的解决方 法是均匀分布的,


以至于一


个算法


(< /p>


或偏倚


)


对一个子集是有利的,


而对另一个子集是不利的。


这与数据挖掘


者所知 的具有惊人的相似性,


没有一个算法适合每一个问题。


但是经过 数据挖掘


处理的问题或数据集绝不是随机的,


也不是所有可能问 题的均匀分布,


他们代表


的是一个有偏差的样本,那么为什么要 应用


NFL


的结论


?

< br>答案涉及到上面提到的


因素:问题空间初始是未知的,多重问题空间可能和每一个 数据挖掘目标相关,


问题空间可能被数据预处理所操纵,


模型不 能通过技术手段评估,


业务问题本身


可能会变化。


由于这些原因,


数据挖掘问题空间在数据挖掘过程中展开,

< br>并且在


这个过程中是不断变化的,


以至于在有条件的约束 下,


用算法模拟一个随机选择


的数据集是有效的。对于数据挖掘 者来说:没有免费的午餐。



这大体上描述了数据挖掘过程。< /p>


但是,


在有条件限制某些情况下,


比如业 务


目标是稳定的,


数据和其预处理是稳定的,

< br>一个可接受的算法或算法组合可以解


决这个问题。在这些情况下,一般的数据挖掘 过程中的步骤将会减少。但是,如


果这种情况稳定是持续的,数据挖掘者的午餐是免费的 ,或者至少相对便宜的。


像这样的稳定性是临时的,因为对数据的业务理解


(


第二律


)


和对问题的理解


(



九律


)< /p>


都会变化的。



第五,模式律

< p>
(


大卫律


)


:数据中总含 有模式。



这条规律最早由


David Watkins


提出。



我们可能预料 到一些数据挖掘项目


会失败,


因为解决业务问题的模式并不存在 于数据中,


但是这与数据挖掘者的实


践经验并不相关。



前文的阐述已经提到,


这是因为:

< p>
在一个与业务相关的数据集中总会发现一


些有趣的东西,

< br>以至于即使一些期望的模式不能被发现,


但其他的一些有用的东

< br>西可能会被



发现


(

< p>
这与数据挖掘者的实践经验是相关的


);


除非业务 专家期望的


模式存在,


否则数据挖掘项目不会进行,

< p>
这不应感到奇怪,


因为业务专家通常是


对的。



然而,


Watkins

< br>提出一个更简单更直接的观点:


“数据中总含有模式。


” 这与


数据挖掘者的经验比前面的阐述更一致。


这个观点后来经过


Watkins


修正,


基于

< p>
客户关系的数据挖掘项目,


总是存在着这样的模式即客户未来的行为总是和 先前

-


-


-


-


-


-


-


-



本文更新与2021-03-02 13:58,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/690156.html

大数据建模 需要了解的九大形式的相关文章