数据挖掘实验指导书_高中生题库网|高考真题|高考试题-「密云二中」

-

2021年3月2日发(作者：强壮的英文单词)

《商务数据分析》实验指导书

（适用于国际经济与贸易专业）

江西财经大学国际经贸学院

编写人：戴爱明

目

录

前

言

.......................... .................................................. .................................................. ................

实验一、

SPSS Clementine

软件功能演练

..................... .................................................. .............

实验二、

SPSS Clementine

数据可视化

...................... .................................................. ................

实验三、决策树

C5.0

建模

.............. .................................................. ..........................................

实验四、关联规则挖掘

............................................ .................................................. ..................

实验五、聚类分析（异常值检测）

....................................... .................................................. ...

前

言

一、课程简介

商务数据分析充分利用数据挖掘技术从大量商务数据中获取有

效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据

挖掘的广义观点：

数据挖掘就是从存放在数据库，

数据仓库或其他信

息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘，又称为

数据库中知识发现

(Knowled ge Discovery in Database, KDD)

，因此，

数据挖掘和数据仓库的协同工作，

一方面，

可以迎合和简化数据挖掘

过程中的重要步骤，

提高数据挖掘的效率和能力，

确保数据挖掘中数

据来源的广泛性和完整性。

另一方面，

数据挖掘技术已经成为数据仓

库应用中极为重要和相对独立的方面和工具。

数据挖掘有机结合了来自多学科技术，其中包括：数据库、数理

统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、

信息检索、图像与信号处理、空间数据分析等，这里我们强调商务数

据分析所处理的是大规模数据，

且其算法应是高效的和可扩展的。

通

过数据分析，可从数据库中挖掘出有意义的知识、规律，或更高层次

的信息，

并可以从多个角度对其进行浏览察看。

所挖掘出的知识可以

帮助进行商务决策支持。

当前商务数据分析应用主要集中在电信、

零

售、农业、网络日志、银行等方面。

二、课程的任务和实验的教学目标

课程编号：

课程属性：专业任选课

实验学时：

适用专业：国际经济与贸易

先修课程：数据库技术、概率论与数理统计、统计学

《商务数据分析》

是一门理论和实践相结合的课程，

其上机实验

的目的主要是实现数据挖掘的主要算法，

训练学生实际动手进行数据

挖掘设计和软件应用的能力，加深对数据挖掘相关概念和算法的理

解。

本课程具有技术性和实践性较强的特点，

因此，

配合基本原理的

讲授，应当安排相应的实习操作。通过实验和操作，使学生巩固和加

深数据仓库与数据挖掘理论知识，

进一步加强学生独立分析问题和解

决问题的能力、

综合设计及创新能力的培养，

为今后工作打下良好的

基础。经过多层次、多方式的全面训练后，学生应达到下列要求：

．进一步巩固和加深数据挖掘基本知识的理解，提高综合运用

所学知识，建立、管理和分析商务数据的能力。

．能根据需要选学参考书，查阅相关的工具，通过独立思考，

深入钻研有关问题，学会自己独立分析问题、解决问题，具有一定的

创新能力。

．能正确处理大规模数据，选择数据挖掘工具的开发平台和相

关的软件解决实践问题。

．能独立撰写实验报告，准确分析实验结果，总结有关的问题，

提出相关的建议。

三、实验教材及参考书

理论课教材及参考书：

数据仓库与数据挖掘教程

（丛书名：

高等院校信息管理与信

息系统专业系列教材）作者：

陈文伟

编著，清华大学出版

社，

2006.8

?

数据仓库和数据挖掘，苏新宁

等编著，清华大学出版社，

2006.4

?

数据仓库与数据挖掘技术（第

2

版）

，陈京民

编著，电子工

业出版社，

2007.1 1

?

Jiawei

Han,

Micheline

Kamber.

Data

Mining:

Concepts

and

Techniques.

高等教育出版社（影印版）

,2001.5.

?

Ian

H.

Witten,

Eibe

Frank.

Data

Mining:

Practical

Machine

Learning Tools and Techniques (

第二版

).

机械工业出版社（影

印版）

，

200 5.

?

Richard

J.

Roiger,

Michael

W.

Geatz.

Data

Mining:

A

Tutorial-Based Primer.

清华大学出版社，

2003.

实验教材：

?

数据挖掘

Clementine

应用实务，

谢邦昌

主编，

机械工业出版

社，

2008.4

?

数据挖掘原理与

SPSS Clementine

应用宝典，元昌安

主编，

电子工业出版社，

2009.8

四、实验基本内容及学时分配

按照《商务数据分析》实验教学大纲的要求，共设立实验

4

个，

3

总计

20

学时。试验基本内容与学时分配如下表：

每组

序号

实验名称

实验学时

人数

1

SPSS Clementine

软件功能演练

实验二、

SPSS Clementine

数据

2

可视化

3

4

5

分类发现

关联规则

聚类分析（异常检测）

2

2

2

1

1

1

验证综合

本科

验证综合

本科

验证综合

本科

必开

必开

必开

1

1

演练

本科

必开

1

1

演练

实验属性

类别

本科

要求

必开

实验者

开出

五、实验方式与基本要求

1

、本课程的实验为非单独设课，因此，应该课程的内容安排和

进度，配合技术原理的讲授，进行相应的操作和实验。

2

、该课以综合性实验为主，教师给出实验题目，实验前学生必

须进行预习，

3

、在规定的时间内，由学生独立完成，出现问题，教师要引导

学生独立分析、解决，不得包办代替。

4

、实验中按要求做好学生实验情况及结果记录，实验后认真填

写实验记录。

5

、

实验指导书仅作为上机时的参考步骤，

不能作为唯一的依据，

以教材和课堂讲授为准。

4

实验一、

SPSS Clementine

软件功能演练

【实验目的】

1

、熟悉

SPSS Clementine

软件功能和操作特点。

2

、了解

SPSS Clementine

软件的各选项面板和操作方法。

3

、熟练掌握

SPSS Clementine

工作流程。

【实验内容】

1

、打开

SPSS Clementine

软件，逐一操作各选项，熟悉软件功能。

2

、打开一有数据库、或新建数据文件，读入

SPSS C lementine

，并使用各种

输出节点，熟悉数据输入输出。

(

要求：至少做

access

数据库文件、

excel

文件、

txt

文件、可变文件的导入、导出

)

【实验步骤】

1

、启动

Clementine

：

请从

Windows

的“开始”菜单中选择：

所有程序

SPSS Clementine 11.1

SPSS Clementine client 11.1

2

、
Clementine

窗口

当第一次启动

Clementine

时，工作区将以默认视图打开。中间的区域称作

流工作区。在

Clementine

中，这将是用来工作的主要区域。

5

Clementine

中绝大部分的数据和建模工具都在选项板中，该区域位于流工

作区的下方。

每个选项卡都包含一组以图形表示数据挖掘任务的节点，

例如访问

和过滤数据，创建图形和构建模型。

要将节点添加到工组区，

可在节点选项板中双击图标或将其拖拽至工作区后

释放。随后可将各个图标连接以创建一个表示数据流动的流。

6

窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种

Clementine

对象。

“流”选项卡包含了当前会话中打开的所有流。可以将这些流保存并关闭，

也可将其添加到工程中。
 

“输出”选项卡包含了由

Clementine

中的流操作产生的各类文件。可以显

示、重命名和关闭此处所列的表格、图形和报告。

“模型”

选项卡是一个功能强大的工具，

包含了在一次会话中产生的所有模

型（即，已在


Clementine

中构建完毕的模型）

。通过它，可以对模型作更深入

的查看、将其添加至流中、导出或为其加注解。

7

窗口右侧底部的部分是工程工具，

它用来创建和管理数据挖掘工程。

查看在

Clementine

中

创

建

的

工

程

有

两

种

方
 式

-

类
视

图

或

CRISP-DM

视

图

。

“

CRISP-DM

”选项卡提供了一种组织工程的方式。

“类”选项卡提供了一种在

Clementine

中按类别（即，按照所创建对象的类别）组织工作的方式。当要获

取数据、流、模型等对象的详尽目录时，这种视图十分有用。

8

实验二、

SPSS Clementine

数据可视化

【实验目的】

1

、熟悉

SPSS Clementine

绘图。

2

、了解

SPSS Clementine

图形选项面板各节点的使用方法。

3

、熟练掌握

SPSS Clementine

数据可视化流程。

【实验内容】

1

、打开

SPSS Clementine

软件，逐一操作各图形选项面板，熟悉软件功能。


2

、打开一有数据库、或新建数据文件，读入

SP SS Clementine

，并使用各种

输出节点，熟悉数据输入输出。

(

要求：至少做分布图、直方图、收集图、多重

散点图、时间散点图

)

【实验步骤】

1

、启动

Clementine

：

请从

Windows

的“开始”菜单中选择：

所有程序

PSS Clementine 11.1

SPSS Clementine client 11.1

2

、建立一个流、导入相关数据，打开图形选项面板

3

、绘制以下各类图形

9

（

1

）以颜色为层次的图

（

2

）以大小为层次的图

10

（

3

）以颜色、大小、形状和透明度为层次的图
 

（

4

）以面板图为层次的图

11

（

5

）三维收集图

（
6

）动画散点图

12

（

7

）分布图

（

8

）直方图

13

（

9

）收集图

14

（

1 0

）多重散点图

未标准化时的多重散点图

标准化后的多重散点图

15

（

11

）网络图

16

实验三、决策树

C5.0

建模

【实验目的】

1

、熟悉

SPSS Clementine

建模方法。

2

、掌握

SPSS Clementine

分布图、散点图、网络图的创建方法。

3

、掌握决策树

C5.0

决策方法。

【实验内容】

1

、创建散点图。

2

、创建分布图。

3

、创建网络图。

【实验步骤】

假设你是一位正在汇总研究数据的医学研究员。

已收集了一组患有同一疾病

的患者的数据。

在治疗过程中，

每位患者均对五种药物中的一种有明显反应。

的

任务就是通过数据挖掘找出适合治疗此疾病的药物。

此示例使用名为

的流，此流引用名为

DRUG1n

的数据文件。

可以从任何

Clementine

Client

安装软件的

Demos

目录下找到这些文件，也可

以通过从

Windows

的

“开始”

菜单选择

Start > [All] Programs > SPSS Clementine

11.1 > Demos

访问这些文件。

文件

位于

Classification_Module

目录

中。此

demo

中使用的数据字段包括：

年龄

（数值）

性别

M

或

F

BP

血压：高、正常或低

胆固醇

血液中的胆固醇含量：正常或高

Na

K

血液中钠的浓度

血液中钾的浓度

药品

对患者有效的处方药

1

、读取文本数据

17

使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点，

方法是单击源选项卡找到此节点，

或者使用收藏夹选项卡

（默认情况下，

其中包

含此节点）

。然后，双击新添加的节点以打开相应的对话框。

单击紧挨“文件”框右边以省略号“

...

”标记的按钮，浏览到系统中的

Clementine

安装目录。打开

demos

目录，然后选择名为

DRUG1n

的文件。选

择从文件读取字段名，并注意已载入此对话框中的字段和值。

18

 单击数据选项卡，

覆盖和更改某个字段的存储。

注意，

存储不同于类型或数

据字段的用途。

类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取

值来查看各个字段的实际值，具体取决于在值列中的选择。此过程称为实例化。

19

类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取值来查看各

个字段的实际值，具体取决于在值列中的选择。此过程称为实例化。

20

2

、添加表。

现在已载入数据文件，

可以浏览一下某些记录的值。

其中一个方法就是构建

一个包含表节点的流。

要将表节点添加到流中，

可双击选项板中的表节点图标或

将其拖放到工作区。

双击选项板中的某个节点后，该节点将自动与流工作区中的选定节点相连

接。此外，如果尚未连接节点，则可以使用鼠标中键将源节点与表节点相连接。

要模拟鼠标中键操作，请在使用鼠标时按下

Alt

键。

21

要查看表，请单击工具栏上的绿色箭头按钮执行流，或者右键单击表节点，

然后选择执行。

3

、创建分布图

数据挖掘过程中，创建汇总视图通常有助于研究数据。

Clementine

提供了

若干不同类型的图表供您选择，

具体取决于要汇总分析的数据类型。

例如，

要找
出每种药物的对症患者的比例，请使用分布节点。

22

将分布节点添加到流，

并将其与源节点相连接，

然后双击该节点以编辑要显

示的选项。

选择药品作为要显示其分布的目标字段。

然后，

在对话框中单击执行

最终图表将有助于查看数据的“结构”

。结果表明，药品

Y

的对症患者最

多，而药品

B

和药品

C

的对症患者最少。

23

此外，

还可以添加并执行数据审核节点，

同时快速浏览所有字段的分布图和

直方图。


可以在“输出”选项卡中找到数据审核节点。

4

、创建散点图

现在我们来看一下有哪些因素会对药品

（目标变量）

产生影响。

作为研究员，

您一定知道钠和钾的浓度在血液中有着重要的影响。

由于两者都是数值，

您可以

用颜色区分药品，创建一个关于钠和钾的散点图。

24

-

-

-

-

-

-

-

-

本文更新与2021-03-02 13:44，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/690037.html

返回列表：英语

上一篇：高中英语外刊--高一(下)阅读理解 50篇 (学生版)-尖子生必备
下一篇：IBM SPSS 建模

当前您在：主页 > 英语 >

数据挖掘实验指导书

-

-

-

-

-

-

-

-

-

返回列表：英语

数据挖掘实验指导书的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

数据挖掘实验指导书的相关文章

当前您在：主页 > 英语 >