大数据建模需要了解的九大形式_高中生题库网|高考真题|高考试题-「密云二中」

大数据建模需要了解的九大形式

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-03-02 13:58

tags:

-

2021年3月2日发(作者：cornerstone)

大数据建模需要了解的九大形式

数据挖掘是利用业务知识从数据中发现和解释知识

(

或称为模式

)

的过程，

这

种知识是以自然或者人工形式创造的新知识。

当前的数据挖掘形式，

是在

世纪

年代实践领域诞生的，

是在集成数据

挖掘算法平台发展的支撑下适合商业分析的一种形式。

也许是因为数据挖掘源于

实践而非理论，在其过程的理解上不太引人注意。

世纪

年代晚期发展的

CRISP-DM

，

逐渐成为数据挖掘过程的一种标准化过程，

被越来越多的数据挖掘实

践者成功运用和遵循。

虽然

CRISP-DM

能够指导如何实施数据挖掘，但是它不能解释数据挖掘是什

么或者为什么适合这样做。

提出数据挖掘的九种准则或

“定律”

以及另外其它一

些熟知的解释。从理论上来解释数据挖掘过程。

第一，目标律：业务目标是所有数据解决方案的源头。

它定义了数据挖掘的主题：数据挖掘关注解决业务业问题和实现业务目标。

数据挖掘主要不是一种技术，

而是一个过程，

业务目标是它的的核心。

没有业务

目标，

没有数据挖掘

(

不管这种表述是否清楚

)

。

因此这个准则也可以说成：

数据

挖掘是业务过程。

第二，知识律：业务知识是数据挖掘过程每一步的核心。

这里定义了数据挖掘过程的一个关键特征。

CRISP-DM

的一种朴素的解读是

业务知识仅仅作用于数据挖掘过程开始的目标的定义与最后的结果的实施，

这将

错过数据挖掘过程的一个关键属性，即业务知识是每一步的核心。

为了方便理解，我使用

CRISP- DM

阶段来说明：

商业理解必须基于业务知识，所以数据挖掘目标必须是业务目标的映射

(

这

种映射也基于数据知识和数据挖掘知识

);

数据理解使用业务知识理解与业务问题相关的数据，以及它们是如何相关

的

;

数据预处理就是利用业务知识来塑造数据，

使得业务问题可以被提出和解答

(

更详尽的第三条—准备律

);

建模是使用数据挖掘算法创建预测模型，同时解释模型和业务目标的特点，

也就是说理解它们之间的业务相关性

;

评估是模型对理解业务的影响

;

实施是将数据挖掘结果作用于业务过程

;

总之，没有业务知识，数据挖掘过程的每一步都是无效的，也没有“纯粹的

技术”步骤。

业务知识指导过程产生有益的结果，并使得那些有益的结果得到

认可。

数据挖掘是一个反复的过程，

业务知识是它的核心，

驱动着结果的持续改

善。

这背后的原因可以用

“鸿沟的表现”

(chasm

of

representati on)

来解释

(Alan

Montg omery

在

20

世纪

90

年代对数据挖掘提出的一个观点

)

。

Montgomery

指出数

据挖掘目标涉及到现实的业务，然而数据仅能表示现实的一部分

;
数据和现实世

界是有差距

(

或“鸿沟”

)

的。在数据挖掘过程中，业务知识来弥补这一差距，在

数据中无论发现什么，

只有使用业务知识解释才能显示其重要性，

数据中的任何

遗漏必须通过业务知识弥补。
只有业务知识才能弥补这种缺失，

这是业务知识为

什么是数据挖掘过程每一步骤的核心的原因。

第三，准备律：数据预处理比数据挖掘其他任何一个过程都重要。

这是数据挖掘著名的格言，

数据挖掘项目中最费力的事是数据获取和预处理。

非正式估计，其占用项目的时间为

50%-80%

。最简单的解释可以概括为“数据是

困难的”

，经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换

等数据预处理各部分的工作量。

虽然自动化技术是有益的，

支持者相信这项技术

可以减

少数据预处理过程中的大量的工作量，但这也是误解数据预处理在数据

挖掘过程中是必须的原因。

数据预处理的目的是把数据挖掘问题转化为格式化的数据，使得分析技术

(

如数据挖掘算法

)

更容易利用它。数据任何形式的变化

(

包括清理、最大最小值

转换、增长等

)

意味着问题空间的变化，因此这种分析必须是探索性的。这是数

据预处理重要的原因，

并且在数据挖掘过程中占有如此大的工作量，

这样数据挖

掘者可以从容地操纵问题空间，使得容易找到适合分析他们的方法。

有两种方法

“塑造”

这个问题空间。

第一种方法是将数据转化为可以分析的

完全格式化的数据，

比如，

大多数数据挖掘算法需要单一表格形式的数据，

一个

记录就是一个样例。

数据挖掘者都知道什么样的算法需要什么样的数据形式，

因

此可以将数据转化为一个合适的格式。

第二种方法是使得数据能够含有业务问题

的更多的信息，

例如，

某些领域的一些数据挖掘问题，

数据挖掘者可以通过业务

知识和数据知识知道这些。

通过这些领域的知识，

数据挖掘者通过操纵问题空间

可能更容易找到一个合适的技术解决方案。

因此，

通过业务知识、

数据知识、

数据挖掘知识从根本上使得数据预处理更

加得心应手。

数据预处理的这些方面并不能通过简单的自动化实现。

这个定律也解释了一个有疑义的现象，

也就是虽然经过数据获取、

清理、

融

合等方式创建一个数据仓库，

但是数据预处理仍然是必不可少的，

仍然占有数据
 挖掘过程一半以上的工作量。此外，就像

CRISP-DM

展示的那样，即使经过了主

要的数据预处理阶段，

在创建一个有用的模型的反复过程中，

进一步的数据预处

理的必要的。

有五种因素说明试验对于寻找数据挖掘解决方案是必要的：

?

数据挖掘项目的业务目标定义了兴趣范围

(

定义域

)
，

数据挖掘目标反映了这

一点

;

?

与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据

挖掘过程产生的

;

?

这些过程受规则限制，而这些过程产生的数据反映了这些规则

;

?

在这些过程中，
 数据挖掘的目的是通过模式发现技术

(

数据挖掘算法

)

和可以

解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则

;

?

数据挖掘需要在这个域上生成相关数据，

这些数据含有的模式不可避免地受

到这些规则的限制。

在这里强调一下最后一点，在数据挖掘中改变业务目标，

CRISP-DM

有所暗

示，但经常不易被觉察到。广为所知的

CRISP-DM

过程不是下一个步骤仅接着上

一个步骤的“瀑布”式的过程。事实上，在项目中的任何地方都可以进行任何

CRISP-DM

步骤，同样商业理解也可以存在于任何一个步骤。业务目标不是简单

地在开始就给定，

它贯穿于整个过程。

这也许可以解释一些数据挖掘者在没有清

晰的业务目标的情况下开始项目，他们知道业务目标也是数据挖掘的一个结果，

不是静态地给定。

Wolpert

的“没有免费的午餐”理论已经应用于机器学习领域，无偏的状态

好于

(

如一个具体的算法

)

任何其他可能的问题

(

数据集

)

出现的平均状态。这是

因为，

如果我们考虑所有可能的问题，

他们的解决方法是均匀分布的，

以至于一

个算法

(

或偏倚

)

对一个子集是有利的，

而对另一个子集是不利的。

这与数据挖掘

者所知的具有惊人的相似性，

没有一个算法适合每一个问题。

但是经过数据挖掘

处理的问题或数据集绝不是随机的，

也不是所有可能问题的均匀分布，

他们代表

的是一个有偏差的样本，那么为什么要应用

NFL

的结论

?
 答案涉及到上面提到的

因素：问题空间初始是未知的，多重问题空间可能和每一个数据挖掘目标相关，

问题空间可能被数据预处理所操纵，

模型不能通过技术手段评估，

业务问题本身

可能会变化。

由于这些原因，

数据挖掘问题空间在数据挖掘过程中展开，
 并且在

这个过程中是不断变化的，

以至于在有条件的约束下，

用算法模拟一个随机选择

的数据集是有效的。对于数据挖掘者来说：没有免费的午餐。

这大体上描述了数据挖掘过程。

但是，

在有条件限制某些情况下，

比如业务

目标是稳定的，

数据和其预处理是稳定的，
 一个可接受的算法或算法组合可以解

决这个问题。在这些情况下，一般的数据挖掘过程中的步骤将会减少。但是，如

果这种情况稳定是持续的，数据挖掘者的午餐是免费的，或者至少相对便宜的。

像这样的稳定性是临时的，因为对数据的业务理解

(

第二律

)

和对问题的理解

(

第

九律

)

都会变化的。

第五，模式律

(

大卫律

)

：数据中总含有模式。

这条规律最早由

David Watkins

提出。

我们可能预料到一些数据挖掘项目

会失败，

因为解决业务问题的模式并不存在于数据中，

但是这与数据挖掘者的实

践经验并不相关。

前文的阐述已经提到，

这是因为：

在一个与业务相关的数据集中总会发现一

些有趣的东西，
 以至于即使一些期望的模式不能被发现，

但其他的一些有用的东
 西可能会被

发现

(

这与数据挖掘者的实践经验是相关的

);

除非业务专家期望的

模式存在，

否则数据挖掘项目不会进行，

这不应感到奇怪，

因为业务专家通常是

对的。

然而，

Watkins
 提出一个更简单更直接的观点：

“数据中总含有模式。

” 这与

数据挖掘者的经验比前面的阐述更一致。

这个观点后来经过

Watkins

修正，

基于

客户关系的数据挖掘项目，

总是存在着这样的模式即客户未来的行为总是和先前

-

-

-

-

-

-

-

-

本文更新与2021-03-02 13:58，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/690156.html

返回列表：英语

上一篇：如何对待有自杀倾向的人
下一篇：2016江西省高考语文试题及答案解析

当前您在：主页 > 英语 >

大数据建模需要了解的九大形式

-

-

-

-

-

-

-

-

-

返回列表：英语

大数据建模需要了解的九大形式的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

大数据建模 需要了解的九大形式的相关文章

当前您在：主页 > 英语 >

大数据建模需要了解的九大形式的相关文章