-
《商务数据分析》实验指导书
(适用于国际经济与贸易专业)
江西财经大学国际经贸学院
编写人:戴爱明
目
录
前
言
..........................
..................................................
..................................................
................
1
实验一、
SPSS Clementine
软件功能演练
.....................
..................................................
.............
5
实验二、
SPSS Clementine
数据可视化
......................
..................................................
................
9
实验三、决策树
C5.0
建模
..............
..................................................
..........................................
1
7
实验四、关联规则挖掘
.
............................................ .................................................. ..................
3
0
实验五、聚类分析(异常值检测)
.
.......................................
..................................................
...
3
8
前
言
一、课程简介
商务数据分析充分利用
数据挖掘技术从大量商务数据中获取有
效的、新颖的、潜在有用的、最终可理解的模式的
非平凡过程。数据
挖掘的广义观点:
数据挖掘就是从存放在数据
库,
数据仓库或其他信
息库中的大量的数据中“挖掘”有趣知识
的过程。数据挖掘,又称为
数据库中知识发现
(Knowled
ge Discovery in Database, KDD)
,因此,
数据挖掘和数据仓库的协同工作,
一方面,
可以迎
合和简化数据挖掘
过程中的重要步骤,
提高数据挖掘的效率和能
力,
确保数据挖掘中数
据来源的广泛性和完整性。
另一方面,
数据挖掘技术已经成为数据仓
库应用中极
为重要和相对独立的方面和工具。
数据挖掘有机结合了来自多
学科技术,其中包括:数据库、数理
统计、机器学习、高性能计算、模式识别、神经网络
、数据可视化、
信息检索、图像与信号处理、空间数据分析等,这里我们强调商务数
p>
据分析所处理的是大规模数据,
且其算法应是高效的和可扩展的。<
/p>
通
过数据分析,可从数据库中挖掘出有意义的知识、规律,或更高
层次
的信息,
并可以从多个角度对其进行浏览察看。
所挖掘出的知识可以
帮助进行商务决策支持。
当前
商务数据分析应用主要集中在电信、
零
售、农业、网络日志、银
行等方面。
1
二、课程的任务和实验的教学目标
课程编号:
课程属性:专业任选课
实验学时:
8
适用专业:国际经济与贸易
先修课程:数据库技术、概率论与数理统计、统计学
《商务数据分析》
是一门理论和实践
相结合的课程,
其上机实验
的目的主要是实现数据挖掘的主要算
法,
训练学生实际动手进行数据
挖掘设计和软件应用的能力,加
深对数据挖掘相关概念和算法的理
解。
本课程具有技术性和实践性较强的特点,
因此,
配合基本原理
的
讲授,应当安排相应的实习操作。通过实验和操作,使学生巩固和加
< br>深数据仓库与数据挖掘理论知识,
进一步加强学生独立分析问题和解
决问题的能力、
综合设计及创新能力的培养,
为今后
工作打下良好的
基础。经过多层次、多方式的全面训练后,学生应达到下列要求:
1
.进一步巩固和加深数据挖掘基本知识的
理解,提高综合运用
所学知识,建立、管理和分析商务数据的能力。
2
.能根据需要选学参考书,查阅相关的工具,通过独立
思考,
深入钻研有关问题,学会自己独立分析问题、解决问题,具有一定的
创新能力。
3
.能正确处
理大规模数据,选择数据挖掘工具的开发平台和相
关的软件解决实践问题。
4
.能独立撰写实验报告,准确分析实验结果,总
结有关的问题,
提出相关的建议。
2
三、实验教材及参考书
理论课教材及参考书:
?
数据仓库与数据挖掘教程
(丛书名:
高等院校信息管理与信
息系统专业系列教材)作者:
陈文伟
编著,清华大学出版
社,
2006.8
?
数据仓库和数据挖掘,苏新宁
等编著,清华大学出版社,
2006.4
?
数据仓库与数据挖掘技术(第
p>
2
版)
,陈京民
编著,电子工
业出版社,
2007.1
1
?
Jiawei
Han,
Micheline
Kamber.
Data
Mining:
Concepts
and
Techniques.
高等
教育出版社(影印版)
,2001.5.
?
Ian
H.
Witten,
Eibe
Frank.
Data
Mining:
Practical
Machine
Learning Tools and
Techniques (
第二版
).
机械工业出版社(影
印版)
,
200
5.
?
Richard
J.
Roiger,
Michael
W.
Geatz.
Data
Mining:
A
Tutorial-Based
Primer.
清华大学出版社,
2003.
实验教材:
?
数据挖掘
Clementine
应用实务,
谢邦昌
主编,
机械工业出版
社,
2008.4
?
数据挖掘原理与
SPSS
Clementine
应用宝典,元昌安
主编,
电子工业出版社,
2009.8
四、实验基本内容及学时分配
p>
按照《商务数据分析》实验教学大纲的要求,共设立实验
4
个,
3
总计
20
p>
学时。试验基本内容与学时分配如下表:
每组
序号
实验名称
实验学时
人数
1
SPSS Clementine
软件功能演练
实验二、
SPSS Clementine
数据
2
可视化
3
4
5
分类发现
关联规则
聚类分析(异常检测)
2
2
2
1
1
1
验证综合
本科
验证综合
本科
验证综合
本科
必开
必开
必开
1
1
演练
本科
必开
1
1
演练
实验属性
类别
本科
要求
必开
实验者
开出
五、实验方式与基本要求
1
、本课程的实验为非单独设课,因此,应该课程的内容安排和
进度,配合
技术原理的讲授,进行相应的操作和实验。
2
、该课以综合性实验为主,教师给出实验题目,实验前学生必
须进行预习,
3
、在规定的时间内,由学生独立完成,出现问题,教师要引导
学生独立分
析、解决,不得包办代替。
4
、实验
中按要求做好学生实验情况及结果记录,实验后认真填
写实验记录。
5
、
实验指导书仅作为上机时的参考步骤,
不能作为唯一的依据,
以
教材和课堂讲授为准。
4
实验一、
SPSS Clementine
软件功能演练
【实验目的】
1
、熟悉
SPSS
Clementine
软件功能和操作特点。
2
、了解
SPSS
Clementine
软件的各选项面板和操作方法。
3
、熟练掌握
SPSS
Clementine
工作流程。
【实验内容】
1
、打开
SPSS
Clementine
软件,逐一操作各选项,熟悉软件功能。
2
、打开一有数据库、或新建数据文件,读入
SPSS C
lementine
,并使用各种
输出节点,熟悉数据输入输出
。
(
要求:至少做
access
数据库文件、
excel
文件、
txt
文件、可变文件的导入、导出
)
【实验步骤】
1
、启动
Clementine
:
请从
Windows
的“开始”菜单中选择:
所有程序
SPSS
Clementine 11.1
SPSS Clementine client
11.1
2
、
Clementine
窗口
当第一次启动
Clementine
时,工作区将以默认视图打开。中间的区域称作
流工作区。在<
/p>
Clementine
中,这将是用来工作的主要区域。
5
Clementine
中绝大部分
的数据和建模工具都在选项板中,该区域位于流工
作区的下方。
每个选项卡都包含一组以图形表示数据挖掘任务的节点,
例如访问
和过滤数据,创建图形和构建模型。
要将节点添加到工组区,
可在节点选项板中双击图标或将其拖拽至工作区后
释放。随后可将各个图标连接以创建一个表示数据流动的流。
6
窗口的右上方是输出和对象管理
器。这些选项卡用于查看和管理各种
Clementine
对象。
“流”选项卡包含了当前会话
中打开的所有流。可以将这些流保存并关闭,
也可将其添加到工程中。
< br>
“输出”选项卡包含了由
Clementine
中的流操作产生的各类文件。可以显<
/p>
示、重命名和关闭此处所列的表格、图形和报告。
“模型”
选项卡是一个功能强大的工
具,
包含了在一次会话中产生的所有模
型(即,已在
Clementine
中构建完毕的模型)<
/p>
。通过它,可以对模型作更深入
的查看、将其添加至流中、导出或
为其加注解。
7
窗口右侧底部的部分是工程工具,
它
用来创建和管理数据挖掘工程。
查看在
Clementine
中
创
建
的
工
程
有
两
种
方
< br>式
-
类
视
图
或
CRISP-DM
视
图
。
“
CRISP-DM
”选项卡提供了一
种组织工程的方式。
“类”选项卡提供了一种在
Clementine
中按类别(即,按照所创建对象的类别
)组织工作的方式。当要获
取数据、流、模型等对象的详尽目录时,这种视图十分有用。
8
实验二、
SPSS
Clementine
数据可视化
【实验目的】
1
、熟悉
SPSS
Clementine
绘图。
2
、了解
SPSS
Clementine
图形选项面板各节点的使用方法。
3
、熟练掌握
SPSS
Clementine
数据可视化流程。
【实验内容】
1
、打开
SPSS
Clementine
软件,逐一操作各图形选项面板,熟悉软件功能。
2
、打开一有数据库、或新建数据文件,读入
SP
SS Clementine
,并使用各种
输出节点,熟悉数据
输入输出。
(
要求:至少做分布图、直方图、收集图、多重
p>
散点图、时间散点图
)
【实验步骤】
1
、启动
Clementine
:
请从
Windows
的“开始”菜单中选择:
所有程序
PSS
Clementine 11.1
SPSS Clementine client
11.1
2
、建立一个流、导入相
关数据,打开图形选项面板
3
、绘制以下各类图形
9
(
1<
/p>
)以颜色为层次的图
(
2
)以大小为层次的图
10
(
3
)以颜色、大小、形状和透明度为层次的图
< br>
(
4
)以面板图为层次的图
11
(
5
)
三维收集图
(
6
)动画散点图
12
(
7
)分布图
(
8
)直方图
13
(
9
)收集图
14
(
1
0
)多重散点图
未标准化时的多重散点图
标准化后的多重散点图
15
(
11
)网络图
16
实验三、决策树
C5.0
建模
【实验目的】
1
、熟悉
SPSS
Clementine
建模方法。
2
、掌握
SPSS
Clementine
分布图、散点图、网络图的创建方法。
3
、掌握决策树
C5.0
决策方法。
【实验内容】
1
、创建散点图。
2
、创建分布图。
3
、创建网络图。
【实验步骤】
假设你是一位正在汇总
研究数据的医学研究员。
已收集了一组患有同一疾病
的患者的数
据。
在治疗过程中,
每位患者均对五种药物中的一种有明显反应
。
的
任务就是通过数据挖掘找出适合治疗此疾病的药物。
此示例使用名为
的流,此流引用名为
DRUG1n
的数据文件。
可以从任何
Clementine
Client
安装软件的
Demos
目录下找到这些文件,也可
以通过从
Windows
的
“开始”
菜单选择
Start > [All]
Programs > SPSS Clementine
11.1 >
Demos
访问这些文件。
文件
位于
Classification_Module
目录
中。此
demo
中使用的数据字段包括:
年龄
(数值)
性别
M
或
F
BP
血压:高、正常或低
胆固醇
血液中的胆固醇含量:正常或高
Na
K
血液中钠的浓度
血液中钾的浓度
药品
对患者有效的处方药
1
、读取文本数据
17
使用变量文件节点读取定界文本数据。可以从选项板中添
加变量文件节点,
方法是单击源选项卡找到此节点,
或者使用收
藏夹选项卡
(默认情况下,
其中包
含此
节点)
。然后,双击新添加的节点以打开相应的对话框。
单击紧挨“文件”框右边以省略号“
...
”标记的按钮,浏览到系统中的
Clementine
安装目录。打开
demos
目录,然后选择名为
DRUG1n
的文件。选
择从文件读取字段名,并注意已载入此对话框中的字
段和值。
18
< br>单击数据选项卡,
覆盖和更改某个字段的存储。
注意,<
/p>
存储不同于类型或数
据字段的用途。
类型
选项卡可帮助了解数据中的更多字段类型。
还可以选择读取
值来
查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。
19
类型选项卡可帮助了解数据中
的更多字段类型。
还可以选择读取值来查看各
个字段的实际值,
具体取决于在值列中的选择。此过程称为实例化。
20
2
、添加表。
现在已载入数据文件,
可以浏览一下某些记录的值。
其中一个
方法就是构建
一个包含表节点的流。
要将表节点添加到流中,<
/p>
可双击选项板中的表节点图标或
将其拖放到工作区。
双击选项板中的某个节点后,该节点将自动与流
工作区中的选定节点相连
接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与
表节点相连接。
要模拟鼠标中键操作,请在使用鼠标时按下
Alt
键。
21
要查看表,请单击工具栏上的
绿色箭头按钮执行流,或者右键单击表节点,
然后选择执行。
3
、创建分布图
数据挖掘过程中,创建汇总视图通常有助于研究数据。
Clementine
p>
提供了
若干不同类型的图表供您选择,
具体
取决于要汇总分析的数据类型。
例如,
要找
出每种药物的对症患者的比例,请使用分布节点。
22
将分布节点添加到流,
并将其与源节
点相连接,
然后双击该节点以编辑要显
示的选项。
选择药品作为要显示其分布的目标字段。
然后,
在对
话框中单击执行
最终图表将有助于
查看数据的“结构”
。结果表明,药品
Y
的对症患者最
多,而药品
B
和药品
C
的对症患者最少。
23
此外,
还可以添加并执行数据审
核节点,
同时快速浏览所有字段的分布图和
直方图。
可以在“输出”选项卡中找到数据审核节点。
4
、创建散点图
现在我们来看一下有哪些因素会对药品
(目标变量)
产生影
响。
作为研究员,
您一定知道钠和钾的浓度在血液中有着重要的
影响。
由于两者都是数值,
您可以
用颜
色区分药品,创建一个关于钠和钾的散点图。
24