关键词不能为空

当前您在: 主页 > 英语 >

数据挖掘实验指导书

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-02 13:44
tags:

-

2021年3月2日发(作者:强壮的英文单词)





《商务数据分析》实验指导书




(适用于国际经济与贸易专业)












江西财经大学国际经贸学院



编写人:戴爱明

















.......................... .................................................. .................................................. ................


1



实验一、


SPSS Clementine


软件功能演练


..................... .................................................. .............


5



实验二、


SPSS Clementine


数据可视化


...................... .................................................. ................


9



实验三、决策树


C5.0


建模



.............. .................................................. ..........................................


1


7


实验四、关联规则挖掘



.

< p>
............................................ .................................................. ..................


3


0


实验五、聚类分析(异常值检测)



.


....................................... .................................................. ...


3


8










一、课程简介



商务数据分析充分利用 数据挖掘技术从大量商务数据中获取有


效的、新颖的、潜在有用的、最终可理解的模式的 非平凡过程。数据


挖掘的广义观点:


数据挖掘就是从存放在数据 库,


数据仓库或其他信


息库中的大量的数据中“挖掘”有趣知识 的过程。数据挖掘,又称为


数据库中知识发现


(Knowled ge Discovery in Database, KDD)


,因此,

< p>
数据挖掘和数据仓库的协同工作,


一方面,


可以迎 合和简化数据挖掘


过程中的重要步骤,


提高数据挖掘的效率和能 力,


确保数据挖掘中数


据来源的广泛性和完整性。


另一方面,


数据挖掘技术已经成为数据仓


库应用中极 为重要和相对独立的方面和工具。



数据挖掘有机结合了来自多 学科技术,其中包括:数据库、数理


统计、机器学习、高性能计算、模式识别、神经网络 、数据可视化、


信息检索、图像与信号处理、空间数据分析等,这里我们强调商务数


据分析所处理的是大规模数据,


且其算法应是高效的和可扩展的。< /p>



过数据分析,可从数据库中挖掘出有意义的知识、规律,或更高 层次


的信息,


并可以从多个角度对其进行浏览察看。

< p>
所挖掘出的知识可以


帮助进行商务决策支持。


当前 商务数据分析应用主要集中在电信、



售、农业、网络日志、银 行等方面。








1


二、课程的任务和实验的教学目标



课程编号:



课程属性:专业任选课



实验学时:


8



适用专业:国际经济与贸易



先修课程:数据库技术、概率论与数理统计、统计学




《商务数据分析》


是一门理论和实践 相结合的课程,


其上机实验


的目的主要是实现数据挖掘的主要算 法,


训练学生实际动手进行数据


挖掘设计和软件应用的能力,加 深对数据挖掘相关概念和算法的理


解。



本课程具有技术性和实践性较强的特点,


因此,


配合基本原理 的


讲授,应当安排相应的实习操作。通过实验和操作,使学生巩固和加

< br>深数据仓库与数据挖掘理论知识,


进一步加强学生独立分析问题和解


决问题的能力、


综合设计及创新能力的培养,


为今后 工作打下良好的


基础。经过多层次、多方式的全面训练后,学生应达到下列要求:



1


.进一步巩固和加深数据挖掘基本知识的 理解,提高综合运用


所学知识,建立、管理和分析商务数据的能力。


2


.能根据需要选学参考书,查阅相关的工具,通过独立 思考,


深入钻研有关问题,学会自己独立分析问题、解决问题,具有一定的


创新能力。



3


.能正确处 理大规模数据,选择数据挖掘工具的开发平台和相


关的软件解决实践问题。



4


.能独立撰写实验报告,准确分析实验结果,总 结有关的问题,


提出相关的建议。



2



三、实验教材及参考书



理论课教材及参考书:



?



数据仓库与数据挖掘教程


(丛书名:



高等院校信息管理与信


息系统专业系列教材)作者:

< p>


陈文伟



编著,清华大学出版


社,


2006.8


?



数据仓库和数据挖掘,苏新宁



等编著,清华大学出版社,


2006.4


?



数据仓库与数据挖掘技术(第


2


版)


,陈京民



编著,电子工


业出版社,


2007.1 1


?



Jiawei


Han,


Micheline


Kamber.


Data


Mining:


Concepts


and


Techniques.


高等 教育出版社(影印版)


,2001.5.


?



Ian


H.


Witten,


Eibe


Frank.


Data


Mining:


Practical


Machine


Learning Tools and Techniques (


第二版


).


机械工业出版社(影


印版)



200 5.


?



Richard


J.


Roiger,


Michael


W.


Geatz.


Data


Mining:


A


Tutorial-Based Primer.


清华大学出版社,


2003.


实验教材:



?



数据挖掘


Clementine


应用实务,


谢邦昌



主编,


机械工业出版


社,


2008.4


?



数据挖掘原理与


SPSS Clementine


应用宝典,元昌安



主编,


电子工业出版社,


2009.8



四、实验基本内容及学时分配



按照《商务数据分析》实验教学大纲的要求,共设立实验


4


个,


3


总计


20


学时。试验基本内容与学时分配如下表:



每组


序号



实验名称



实验学时



人数



1


SPSS Clementine


软件功能演练



实验二、


SPSS Clementine


数据


2


可视化



3


4


5





分类发现



关联规则



聚类分析(异常检测)






2


2


2





1


1


1





验证综合



本科



验证综合



本科



验证综合



本科









必开



必开



必开






1


1


演练



本科



必开



1


1


演练



实验属性



类别



本科



要求



必开



实验者


开出




五、实验方式与基本要求



1


、本课程的实验为非单独设课,因此,应该课程的内容安排和


进度,配合 技术原理的讲授,进行相应的操作和实验。




2


、该课以综合性实验为主,教师给出实验题目,实验前学生必


须进行预习,




3


、在规定的时间内,由学生独立完成,出现问题,教师要引导


学生独立分 析、解决,不得包办代替。



4


、实验 中按要求做好学生实验情况及结果记录,实验后认真填


写实验记录。


5




实验指导书仅作为上机时的参考步骤,


不能作为唯一的依据,


以 教材和课堂讲授为准。



4


实验一、


SPSS Clementine


软件功能演练



【实验目的】



1


、熟悉


SPSS Clementine


软件功能和操作特点。



2


、了解


SPSS Clementine


软件的各选项面板和操作方法。



3


、熟练掌握


SPSS Clementine


工作流程。



【实验内容】



1


、打开


SPSS Clementine


软件,逐一操作各选项,熟悉软件功能。


2


、打开一有数据库、或新建数据文件,读入


SPSS C lementine


,并使用各种


输出节点,熟悉数据输入输出 。


(


要求:至少做


access


数据库文件、


excel


文件、


txt


文件、可变文件的导入、导出


)


【实验步骤】



1


、启动



Clementine




请从



Windows


的“开始”菜单中选择:




所有程序



SPSS Clementine 11.1


SPSS Clementine client 11.1



2


Clementine


窗口



当第一次启动



Clementine


时,工作区将以默认视图打开。中间的区域称作


流工作区。在< /p>



Clementine


中,这将是用来工作的主要区域。



5



Clementine


中绝大部分 的数据和建模工具都在选项板中,该区域位于流工


作区的下方。


每个选项卡都包含一组以图形表示数据挖掘任务的节点,


例如访问


和过滤数据,创建图形和构建模型。



要将节点添加到工组区,


可在节点选项板中双击图标或将其拖拽至工作区后


释放。随后可将各个图标连接以创建一个表示数据流动的流。




6


窗口的右上方是输出和对象管理 器。这些选项卡用于查看和管理各种



Clementine


对象。



“流”选项卡包含了当前会话 中打开的所有流。可以将这些流保存并关闭,


也可将其添加到工程中。

< br>




“输出”选项卡包含了由



Clementine


中的流操作产生的各类文件。可以显< /p>


示、重命名和关闭此处所列的表格、图形和报告。




“模型”


选项卡是一个功能强大的工 具,


包含了在一次会话中产生的所有模


型(即,已在

< p>


Clementine


中构建完毕的模型)< /p>


。通过它,可以对模型作更深入


的查看、将其添加至流中、导出或 为其加注解。



7




窗口右侧底部的部分是工程工具,


它 用来创建和管理数据挖掘工程。


查看在



Clementine











< br>式



-






CRISP-DM







CRISP-DM


”选项卡提供了一 种组织工程的方式。


“类”选项卡提供了一种在



Clementine


中按类别(即,按照所创建对象的类别 )组织工作的方式。当要获


取数据、流、模型等对象的详尽目录时,这种视图十分有用。






8


实验二、


SPSS Clementine


数据可视化



【实验目的】



1


、熟悉


SPSS Clementine


绘图。



2


、了解


SPSS Clementine


图形选项面板各节点的使用方法。



3


、熟练掌握


SPSS Clementine


数据可视化流程。



【实验内容】



1


、打开


SPSS Clementine


软件,逐一操作各图形选项面板,熟悉软件功能。


< p>
2


、打开一有数据库、或新建数据文件,读入


SP SS Clementine


,并使用各种


输出节点,熟悉数据 输入输出。


(


要求:至少做分布图、直方图、收集图、多重


散点图、时间散点图


)


【实验步骤】



1


、启动



Clementine




请从



Windows


的“开始”菜单中选择:




所有程序



PSS Clementine 11.1


SPSS Clementine client 11.1



2


、建立一个流、导入相 关数据,打开图形选项面板





3


、绘制以下各类图形




9



1< /p>


)以颜色为层次的图





2


)以大小为层次的图













10



3


)以颜色、大小、形状和透明度为层次的图

< br>




4


)以面板图为层次的图













11



5


) 三维收集图




6


)动画散点图









12



7


)分布图






8


)直方图









13



9


)收集图








14



1 0


)多重散点图




未标准化时的多重散点图




标准化后的多重散点图







15



11


)网络图





16


实验三、决策树


C5.0


建模



【实验目的】



1


、熟悉


SPSS Clementine


建模方法。



2


、掌握


SPSS Clementine


分布图、散点图、网络图的创建方法。



3


、掌握决策树


C5.0


决策方法。



【实验内容】



1


、创建散点图。



2


、创建分布图。



3


、创建网络图。



【实验步骤】



假设你是一位正在汇总 研究数据的医学研究员。


已收集了一组患有同一疾病


的患者的数 据。


在治疗过程中,


每位患者均对五种药物中的一种有明显反应 。



任务就是通过数据挖掘找出适合治疗此疾病的药物。



此示例使用名为




的流,此流引用名为



DRUG1n


的数据文件。


可以从任何



Clementine


Client


安装软件的



Demos


目录下找到这些文件,也可


以通过从



Windows



“开始”


菜单选择



Start > [All] Programs > SPSS Clementine


11.1 > Demos


访问这些文件。


文件




位于



Classification_Module


目录


中。此


demo


中使用的数据字段包括:



年龄



(数值)



性别



M



F


BP


血压:高、正常或低



胆固醇



血液中的胆固醇含量:正常或高



Na


K


血液中钠的浓度



血液中钾的浓度



药品



对患者有效的处方药



1


、读取文本数据



17


使用变量文件节点读取定界文本数据。可以从选项板中添 加变量文件节点,


方法是单击源选项卡找到此节点,


或者使用收 藏夹选项卡


(默认情况下,


其中包


含此 节点)


。然后,双击新添加的节点以打开相应的对话框。




单击紧挨“文件”框右边以省略号“


...


”标记的按钮,浏览到系统中的



Clementine


安装目录。打开



demos


目录,然后选择名为



DRUG1n


的文件。选


择从文件读取字段名,并注意已载入此对话框中的字 段和值。



18


< br>单击数据选项卡,


覆盖和更改某个字段的存储。


注意,< /p>


存储不同于类型或数


据字段的用途。


类型 选项卡可帮助了解数据中的更多字段类型。


还可以选择读取


值来 查看各个字段的实际值,具体取决于在值列中的选择。此过程称为实例化。



19



类型选项卡可帮助了解数据中 的更多字段类型。


还可以选择读取值来查看各


个字段的实际值, 具体取决于在值列中的选择。此过程称为实例化。



20



2


、添加表。



现在已载入数据文件,


可以浏览一下某些记录的值。


其中一个 方法就是构建


一个包含表节点的流。


要将表节点添加到流中,< /p>


可双击选项板中的表节点图标或


将其拖放到工作区。




双击选项板中的某个节点后,该节点将自动与流 工作区中的选定节点相连


接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与 表节点相连接。


要模拟鼠标中键操作,请在使用鼠标时按下



Alt


键。



21



要查看表,请单击工具栏上的 绿色箭头按钮执行流,或者右键单击表节点,


然后选择执行。






3


、创建分布图


数据挖掘过程中,创建汇总视图通常有助于研究数据。


Clementine


提供了


若干不同类型的图表供您选择,


具体 取决于要汇总分析的数据类型。


例如,


要找

出每种药物的对症患者的比例,请使用分布节点。



22



将分布节点添加到流,


并将其与源节 点相连接,


然后双击该节点以编辑要显


示的选项。


选择药品作为要显示其分布的目标字段。


然后,


在对 话框中单击执行




最终图表将有助于 查看数据的“结构”


。结果表明,药品



Y


的对症患者最


多,而药品



B


和药品



C


的对症患者最少。



23


此外,


还可以添加并执行数据审 核节点,


同时快速浏览所有字段的分布图和


直方图。

< p>



可以在“输出”选项卡中找到数据审核节点。





4


、创建散点图


现在我们来看一下有哪些因素会对药品


(目标变量)


产生影 响。


作为研究员,


您一定知道钠和钾的浓度在血液中有着重要的 影响。


由于两者都是数值,


您可以


用颜 色区分药品,创建一个关于钠和钾的散点图。



24

-


-


-


-


-


-


-


-



本文更新与2021-03-02 13:44,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/690037.html

数据挖掘实验指导书的相关文章