关键词不能为空

当前您在: 主页 > 英语 >

实验一 Clementine12.0数据挖掘分析方法与应用

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-02 13:11
tags:

-

2021年3月2日发(作者:悠然自得)


实验一




Cleme ntine12.0


数据挖掘分析方法与应用




一、


[


实验 目的


]






熟悉


Clementine12.0


进行数据挖掘的基本操作方法与流程,


对实际的问题能


熟练利用


Clementine12.0


开展数 据挖掘分析工作。



二、


[

< p>
知识要点


]


1


、数据挖掘概念;



2


、数据挖掘流程;



3



Clementine12.0

< br>进行数据挖掘的基本操作方法。



三、

< br>[


实验内容与要求


]


1


、熟悉


Clementine12.0


操作界 面;



2


、理解工作流的模型构建方法;


< /p>


3


、安装、运行


Clementine1 2.0


软件;



4


、构建挖掘流。


< br>四、


[


实验条件


]






Clementine12.0


软件。



五、


[


实验步骤


]




1


、主要数据挖掘模式分析;





2


、数据挖掘流程分析;





3



Clementine12.0


下载与安装;





4



Clementine12.0


功能分析;




5



Clementine12.0


决策分析实例。



六、


[


思考与练习


]





1



Clementine12.0

< p>
软件进行数据挖掘的主要特点是什么?



2


、利用


Clementine12.0


构建一 个关联挖掘流(购物篮分析)







1



实验部分




一、


Clementine


简述



Clementine



ISL(Inte gral Solutions Limited)


公司开发的数据挖掘工具平台。


1999



SPSS


公司收购了


ISL


公司,



Clementine


产品进行重新整合和开发,




Clementine


已经成为


SPSS


公司的又一亮点。



作为一个数据挖掘平台,



Cleme ntine


结合商业技术可以快速建立预测性模


型,

< p>
进而应用到商业活动中,


帮助人们改进决策过程。


强大的数据挖掘功能和显


著的投资回报率使得


Clementi ne


在业界久负盛誉。同那些仅仅着重于模型的外


在表现而忽略 了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相


比,


Clementine


其功能强大的数据挖掘算法,使数 据挖掘贯穿业务流程的始终,


在缩短投资回报周期的同时极大提高了投资回报率。



为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异 的数


据,



相异的任务类型和数据类型 就要求有不同的分析技术。


Clementine


提供最


出色、最广泛的数据挖掘技术,确保可用最恰当的分析技术来处理相应的问题,


从而得到最优的结果以应对随时出现的商业问题。


即便改进业务的机会被庞杂的


数据表格所掩盖,



Clementi ne


也能最大限度地执行标准的数据挖掘流程,为您


找到解决商 业问题的最佳答案。



为了推广数据挖掘技术,以解决越来越多 的商业问题,


SPSS


和一个从事数


据 挖掘研究的全球性企业联盟制定了关于数据挖掘技术的行业标准


--CRISP-DM


(Cross-Industry Standard Process for Data Mining)


。与以往仅仅局限在技术层面上


的数 据挖掘方法论不同,


CRISP-DM


把数据挖掘看作一个商业 过程,


并将其具体


的商业目标映射为数据挖掘目标。最近一次调 查显示,


50%


以上的数据挖掘工具


采 用的都是


CRISP- DM


的数据挖掘流程,它已经成为事实上的行业标准。



Clementine


完全支持


CRISP- DM


标准,


这不但规避了许多常规错误,


而且其


显著的智能预测模型有助于快速解决出现的问题。


< /p>


在数据挖掘项目中使用


Clementine

应用模板(


CATs


)可以获得更优化的结


果。应用模板完全遵循


CRISP-DM


标准,借鉴了 大量真实的数据挖掘实践经验,


是经过理论和实践证明的有效技术,为项目的正确实施提 供了强有力的支撑。



Clementine

< br>中的应用模板包括:




2



1



CRM CAT--


针对客户的获取和增长,提高反馈率并减少客户流失;




2



Web CAT--


点击顺序分析和访问行为分析;


< br>(


3



cTelco CAT--


客户保持和增加交叉销售;




4



Crime CAT--


犯罪分析及其特征描述,确定事故高发区,联合研究相关


犯罪行为;




5



Fraud CAT--


发现金融交易和索赔中的欺诈和异常行为;




6



Microa rray CAT--


研究和疾病相关的基因序列并找到治愈手段。



利用


Clementine


,可以在如下几 方面提供解决方案:




1

< p>
)公共部门。


各国政府都使用数据挖掘来探索大规模数据存储,改善群


众关系,侦测欺诈行为(譬如洗黑钱和逃税)


,检测犯罪行为和恐怖 分子行为模


式以及进一步扩展电子政务领域。




2



CRM



客户关系管理可以通过对客户类型的智能分类和客户流失的准


确预测而得到提高。


Clementine


已成功帮 助许多行业的企业吸引并始终保有最


有价值的客户。




3



Web


挖掘。


Clementine


包含的 相关工具具有强大的顺序确定和预测算


法,


对于准确发现网站浏 览者的行为以及提供精确满足浏览者需求的产品或信息


而言,


这 些工具是不可或缺的。


从数据准备到构建模型,


全部的数据挖掘 过程均


可在



Clementine


内部操控。




4


)药物发现和生物信息学。


通过对由试验室自动操作获得的 大量数据进


行分析,


数据挖掘有助于药物和基因组的研究。


聚类和分类模型帮助从化合物库


中找出线索,与此同时顺序检测则有 助于模式的发现。




二、



Clementine


数据挖掘的基本思想



数据挖掘(


Data Mining


) 是从大量的、不完全的、有噪声的、模糊的、随机


的实际应用数据中,

< br>提取隐含在其中的、


人们事先不知道的、


但又是潜在有用 的


信息和知识的过程,


它是一种深层次的数据分析方法。


随着科技的发展,


数据挖


掘不再只依赖在线分 析等传统的分析方法。


它结合了人工智能


AI



和统计分析


的长处,


利用人工智能技术和统计的应用程序,


并把这些高深复杂的技术封装起


来,


使人们不用自己掌握这些技术也能完成同样的功能,


并且更专注于自己所要


解决的问题。




3


Clementine


为我们提供了大量的人工智能、统计分析的模型(神经网络,关


联分析, 聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、


熟悉这个软件提供 了方便。除了这些,


Clementine


还拥有优良的数据挖 掘设计思


想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。

< p>
Clementine


遵循


CRISP-DM Model



Cross Industry Standard Process for Data Mining


,数据挖


掘跨行业标准流程),具体如图所示。





4.1 CRISP-DM process model



如图可知,


CRISP- DM Model


包含了六个步骤,并用箭头指示了步骤间的执


行顺序。


这些顺序并不严格,


用户可以根据实际的需要反向执行 某个步骤,


也可


以跳过某些步骤不予执行。

通过对该步骤的执行,


我们也涵盖了数据挖掘的关键


部分。



1.


商业理解



商业理解阶段应算是数据挖掘中最重要的一个部分,


在这个阶段里我们需要

< p>
明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。


< /p>


Clementine


的可视化操作界面使得企业可以更容易地把 业务知识应用到数


据挖掘项目中。此外,使用针对特定商业目标的


Clementine


应用模板


(CATs)


,可


以在数据挖掘工作中使用成熟的、最佳的方法。


C ATs


使用的样本数据可以以平


面文件或者关系型数据库表的形 式安装。




客户关系管理(


CRM



CAT*



电信


CAT*



欺诈探测


CAT*



4



微阵列


CAT*



网页挖掘


CAT* (


需要购买


Web Mining for Clementine)


2.


数据理解



数据是我们挖掘过程的



原材料


”< /p>



在数据理解过程中我们要知道都有些什么


数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。


使用< /p>


Clementine


,可以做到:




使用


Clementine


的数据审核节点获取对数据的初步认识;




通过图形、统计汇总或数据质量评估快速浏览数据;




创建基本的图表类型,如直方图、分布图、线形图和点状图;




在图形面板节点中通过自动帮助方式创建比过去更多的基本 图形及高级


图形;




通过表格定制节点轻松创建复杂的交叉表;




编辑图表使分析结果交流变得更容易;




通过可视化联接技术分析数据的相关性;




与数据可视化互动,


可在图形中选 择某个区域或部分数据,


然后对选择的


数据部分再进行观察或在 后续分析中使用这些信息;




在< /p>


Clementine


中直接使用


SPS S


统计分析、图形以及报表功能。



3.


数据准备



在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出


要进行分析 的数据,并对不符合模型输入要求的数据进行规范化操作。运用


Clementine< /p>


,可以做到:




1


)访问数据



< br>–


---


结构化


(


表格


)


数据




通过


SPSS Data Access Pack


访问支持


ODBC

的数据源,包括


IBM DB2



Oracle



Microsoft SQL Server< /p>



Informix


< br>Sybase


数据库;



■ < /p>


导入用分隔符分隔和固定宽度的文件,任何


SPSS


的文件,


SAS 6, 7, 8,



9


文件;




在读取


Excel


文件时,可以限定工作表和数据范围。



< p>
---


非结构化


(


原文< /p>


)


数据




使用


Text Mining for Clementine


自动从任何类型的文本中提取各种概念。




5



---


网站数据




使用


Web Mining for Clementine


自动从网络日志中提取网站上的事件。




----


调查数据

< br>



直接访问存储在


Dime nsions


数据模型或


Dimensions*


产品中的数据文件。




---


数据输出




可以输出为分隔符分隔,


固定宽度的文件,


所有主流数据库数 据,


Microsoft


Excel



SPSS


,和


SAS 6

< p>


7



8



9


文件;




使用


Excel

< br>导出节点导出成


XLS


格式;




为市场调研输出数据到


Dimen sions


中。



< br>2



各种数据清洗选项





移出或者替换无效数据





使用预测模型自动填充缺失值





自动侦测及处理异常值或极值




3




数据处理




---


完整的记录和字段操作,包括:




字段过滤、命名、导出、分段、重新分类、值填充以及字段重排;




对记录进行选择、


抽样(包括 簇与分层抽样)


、合并(内连接、完全外连


接、部分外连接以及 反连接)和追求;排序、聚合和平衡;




数据重新结构化,包括转置;




分段节点能够根据预测值对数字值进行最优分段;




使用新的字符串函数:字符串创建、取子字符串、替换、查 询和匹配、空


格移除以及截断;




使用时间区间节点为时间序列分析做准备;




---


将数据拆分成训练、测试和验证集。




---


对多个变量自动进行数据转换。




可视化的标准数据转换



< p>
---


数据转换在


Clementine


中直接使用


SPSS


数据管理和转换功能;




RFM


评分 :


对客户交易进行汇总,


生成与最近交易日期、交易频度以及交


易金额相关的评分,并对这些评分进行组合,从而完成完整的


R FM


分析过程。





6


4.


建模



建 模过程也是数据挖掘中一个比较重要的过程。


需要根据分析目的选出适合


的模型工具,通过样本建立模型并对模型进行评估。



Clementine


提供了非常广泛的数据挖掘算法以及更多高级功能,从而帮助企< /p>


业从数据中得到尽可能最优的结果。




提供交互式建模、方程式浏览器及专业统计输出;




图形化显示不同变量对预测目标影响的重要程度;




用元建模合并模型





合并多个模型或者将一个模型的预测应用于建立另外一个模型;





模型合并节点能够自动整合预测值 从而优化预测结果的准确性及稳定性;



< br>用


PMML


导入其它工具生成的模型,例如


AnswerTree



SPSS for Windows



使用


Cleme ntine


扩展性架构客户化算法。



Clementine


提供的数据挖掘算法包括:




C&RT



CHAID&QUEST



决策树算法



包括交互式决策树创建;



■ < /p>


决策列表



交互式业务规则创建算法能够 让分析人员把业务知识集成在


预测模型中




C5.0


决策树及规则集算法




神经网络



向后传播的多层感知器以及径向基函数




支持向量机



为宽表提供更准确的分析结果

< p>



贝叶斯网络



可视化的概率模型




二元及多元回归




自学习响应模型



增量学习的贝因斯模型




线性回归



最佳拟和线性方程式模型




广义线性模型(


GLM





Cox


回归



分析某类事件的发展趋势



■ < /p>


时间序列



自动生成时间序列预测模型< /p>




K-means

< br>—


聚类



< br>Kohonen



神经元网络聚类算法

< br>



两步聚类



自动选择合适的聚类数




7



异常侦测


基于聚类算法侦测那些异常记录




两步聚类



自动选择合适的聚类数




主成分


/


因子分析



通过主成分


/


因子分析对数据降维




GRI



规则归纳相关性探索算法




Apr iori



提供高级评估功能的演绎关联算法

< br>



CARMA


< p>
提供多后项的关联算法





时序分析



针对顺序相关性分析的时序关联


算法




二元分类器和数值型预测器



自动化创建及评估多个模型。



5.


评估



并 不是每一次建模都能与我们的目的吻合,


评价阶段旨在对建模结果进行评


估,


对效果较差的结果我们需要分析原因,


有时还需要 返回前面的步骤对挖掘过


程重新定义。通过


Clementin e


可以做到:




使用提升、收益、利润和响应图表可以方便地评估模型





使用一步到位的流程评估多个模型,缩短项目用时;





定义命中和得分条件来评估模型的性能。




使用一致性矩阵以及其它自动评估工具分析模型的总体精度




使用倾向性评分来简化部署及多模型比较



6.


发布



该 阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、


产生最终报表、 重新评估模型等过程。



Clementine


提供多种部署方式从而满足企业不同的需要。




Clementine Solution Publisher (


可选


*)




自动导出所有操作,包括数据访问 、数据处理、文本挖掘、模型评分(包


括模型组合)以及后加工过程;

< br>




使用

runtime


在给定的平台上执行图像文件。




将生成的模型导出为


SQL



PMML


(针对预测模型的标准

< p>
XML


文件)




自动把


Clementine


数据流导入到


SPSS


企业级预测服务器中





合并导出的


Clementine


数据流以及隐含业务规则的预测模型,从而优化企


业运营过程。




Cleo (


可选


*)



8




基于网页的快速模型部署;





通过可定制的浏览器界面,


允许多个用户同时访问并立即评估单个记录、



个记录甚至整个数据库。




Clementine


批处理





在用户界面之外自动进行工作,使 用


Clementine


批处理模式您可以:

< br>



从其它应用或者调度系统中自动启动


Clementine


流程




生成编码密码




使用命令行执行


Clementi ne


的数据挖掘过程




脚本




< /p>


自动执行命令行脚本或者与


Clementine


流程相关的脚本,以自动执行用户


界面重复工作。脚本通常执行与鼠标和键盘同 样的工作。




使用工具栏中的图标 执行


Clementine


流中选定的行、超级节点或者独立的


脚本。




用单独的脚本更新流参数




将生成的模型导出为


PMML 2.1




对数据库内对数据进行评分,


减少在客户端代价昂贵的数据转移和计算工


作;





Clementine PMML


模型部署到


IBM DB2 Intelligent Miner?


可视化和


Intelligent Miner


打分中。




使用数据库的大批量输入程序





在数据导出时,

< br>使用为每个特定数据库定制的大批量输入程序。


您可以调


整各种选项,包括为使用


ODBC


的载入进程确定行或列的约束 条件,以及为数据


库中执行的批处理调整其规模。




三、数据挖掘主要模式



1.


分类




Classification





首先从数据中选出已经分好类的训练集,在该训练集上运用数 据挖掘分类的


技术,建立分类模型,对于没有分类的数据进行分类。例子:




1


)信用卡申请者,分 类为低、中、高风险






9



2< /p>



故障诊断:


中国宝钢集团与上海天律信 息技术有限公司合作,


采用数据


挖掘技术对钢材生产的全流程进 行质量监控和分析,


构建故障地图,


实时分析产


品出现瑕疵的原因,有效提高了产品的优良率。




注意:



类的个数是确定的,预先定义好的。



2.


估计(


Estimation


)< /p>




估计与分类类似,

< br>不同之处在于,


分类描述的是离散型变量的输出,


而估值


处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。例子:

< p>




1


)根据购买模式,估计一个家庭的孩子个数;




3


)根据购买模式,估计一个家庭的收入;




3


)估计


r eal estate


的价值;



一般 来说,


估值可以作为分类的前一步工作。


给定一些输入数据,< /p>


通过估值,


得到未知的连续变量的值,然后,根据预先设定的阈值 ,进行分类。例如:银行


对家庭贷款业务,运用估值,给各个


客 户


记分(


Score 0~1


)。然后 ,根据阈值,


将贷款级别分类。



< /p>


3.


预测(


Prediction





通常,


预测是通过分类或估值起作用的,


也就是说,


通过分类或估值得出模


型,


该模型用于对未知变量的预言。


从这种意义上说,


预言其实没有必要分为一


个单独的类。


预言其目的是对未来未知变量的预测,


这种预测是 需要时间来验证


的,即必须经过一定时间后,才知道预言准确性是多少。



·



相关性分组或关联规则(


Affinity grouping or association rules





决定哪些事情将一起发生。



例子:




1


)超市中客户在购买


A


的同时,经常会 购买


B


,即


A => B(


关联规则


)


< br>(


2


)客户在购买


A

< p>
后,隔一段时间,会购买


B


(序列分析)



4.


聚类(


Clustering





聚类是对记录分组,

< p>
把相似的记录在一个聚集里。


聚类和分类的区别是聚集

不依赖于预先定义好的类,不需要训练集。



例子:




1


)一些特定症状的聚集可能预示了一个特定的疾病


< p>


2


)租


VCD


类型不相似的客户聚集,可能暗示成员属于不同的亚文化群





10


聚 集通常作为数据挖掘的第一步。


例如,



哪一种类的促销对客户响应最好?



,对于这一

< br>


类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然


后对每个不同的聚集,回答问题,可能效果更好。



5.


描述和可视化(


Description and Visualization




是对数据挖掘结果的。



< p>
四、


Clementine


的基本操作方法



1


、操作界面的介绍



在数据挖掘过程中的每一个阶段,均可通过



Clementine


易于使用的界面来

邀请特定业务的专家。建模算法(如预测、分类、细分和关联检测)可确保得到


强大 而准确的模型。模型结果可以方便地部署和读入到数据库、


SPSS


和各种其


他应用程序中。



























4.2



Clementine


操作界面



1.1


数据流程区


< br>Clementine


在进行数据挖掘时是基于数据流程形式,从读入数据到最后 的结



11


果显示都是由流程图的形 式显示在数据流程区内。


数据的流向通过箭头表示,



一个结点都定义了对数据的不同操作,


将各种操作组合在一起便形成了一 条通向


目标的路径。



数据流程区是整 个操作界面中最大的部分


(上右大部分)


整个建模过程以


及对模型的操作都将在这个区域内执行。


我 们可以通过


文件-新建流


新建一个空


白 的数据流,也可以打开已有的数据流。




















4.3



数据流



使用



Clementine


处理数据的三个步骤。



?


首先,将数据读入



Clementine




?


然后,然后通过一系列操作运行数据,



?


最后,将数据发送到目标位置。



这一操作序列称为数据流,因为数据以一条条记录的形式,从数据源开始,


依次经过各种操作,最终到达目标(模型或某种数据输出)。




所有在一个运行期内打开的数据流都将保存在管理器的流栏下。





4.4


数据流程区窗口



1.2


选项面板


选项面板横跨于


Clementine


操作界面的下部,它 被分为收藏夹、源、记录选


项、字段选项、图形、建模、输出、导出

8


个栏,其中每个栏目包含了具有相关



12


功能的结点。



结点是数据流的基本组成部分,


每一个结点拥有不同的数据处理功能。


设置


不同的栏是为了将不同功能的结点分组,下面我们介绍各个栏的作用 。






























4.5


选项面板





:该栏包含了能读入数据到


Clementine

< p>
的结点。例如


Var. File


结点读取自


由格式的文本文件到


Clementine



SPSS File


读取


spss< /p>


文件到


Clementine




记录选项



该栏包含 的结点能对数据记录进行操作。


例如筛选出满足条件的


记录(< /p>


select


)、将来自不同数据源的数据合并在一起(


merge


)、向数据文件中


添加记录


(append)


等。



字段选项


:该栏包含了能对字段进行操作的结点。例如过滤字段(

filter


)能


让被过滤的字段不作为模型的输入、


derive


结点能根据用户定义生成新的字段,

< br>同时我们还可以定义字段的数据格式。



图形

< p>


该栏包含了纵多的图形结点,


这些结点用于在建 模前或建模后将数据


由图形形式输出。



建模


:该栏包含了各种已封装好的模型,例如神经网络(


Ne ural Net


)、决


策树(


C5. 0


)等。这些模型能完成预测(


Neural Net



Regression


Logistic


)、


分类(


C 5.0



C&R Tree



Kohonen




K -means



Twostep


)、关 联分析


(Apriori



GRI



Sequece)


等功能。



输出



该栏提供了许多能 输出数据、


模型结果的结点,


用户不仅可以直接在


Clementine


中查看输出结果,也可以输出到其他应用程序中查看, 例如


SPSS



Excel

< p>



收藏夹


< p>
该栏放置了用户经常使用的结点,


方便用户操作。


用户可以自定义


其收藏夹栏,操作方法为:选中菜单栏的


工具< /p>


,在下拉菜单中选择


管理选项板



在弹出的


选项板管理器


中双击


收藏夹



出现下图,


可以从左 边选择要加入收藏夹


的节点,点击中间箭头,节点自动加入到右边收藏夹中。

< p>



13




4.6


收藏夹栏的设置



1.3


管理器



管理器(图


4.1


中右边上部分)中共包含了流、输出、模型 三个栏。其中流


中放置了运行期内打开的所有数据流,


可以通过 右键单击数据流名对数据流进行


保存、


设置属性等操作。


输出中包含了运行数据流时所有的输出结果,


可以通过


双击结果名查看输出的结果。


模型中包含了模型的运行结果,

< br>我们可以右键单击


该模型从弹出的


Browse


中查看模型结果,也可以将模型结果加入到数据流中。




1.4


项目窗口的介绍







4.7


管理器流窗口







4.8


管理器输出窗口






4.9


管 理器输出窗口



项目窗口含有两个选项栏,一个是


CRISP- DM


,一个是类。



CRISP- DM


的设置是基于


CRISP-DM Model


的思想,它方便用户存放在挖掘


各个阶段形成的文件。由右键单击阶段名,可 以选择生成该阶段要拥有的文件,


也可以打开已存在的文件将其放入该阶段。

< p>
这样做的好处是使用户对数据挖掘过


程一目了然,也有利于对它进行修改。




14










4.10



CRISP-DM


项目窗口










4.11



类项目窗口




Classes


窗口具有同


CRISP-DM


窗口相似的作用,它的分类不是基于挖掘的各


个过程,而是基于存储的文件类型 。例如数据流文件、结点文件、图表文件等。




五、数据流基本操作的介绍



5.4.1


生成数据流的基本过程


< /p>


数据流是由一系列的结点组成,


当数据通过每个结点时,


结点对它进行定义


好的操作。我们在建立数据流是通常遵循以下四步:< /p>



①向数据流程区增添新的结点;



②将这些结点连接到数据流中;



③设定数据结点或数据流的功能;



④运行数据流。



5.4.2


向数据流程区添


/


删结点



当向数据流程区添加新的结点时,我们有下面三种方法遵循:



①双击结点面板中待添加的结点;



②左键按住待添加结点,将其拖到数据流程区内;


< p>
③选中结点面板中待添加的结点,


将鼠标放入数据流程区,


在鼠标变为十字


形时单击数据流程区。



通过上面三种方法我们都将发现选中的结点出现在了数据流程区内。



当我们不再需要数据流程区内的某个结点时,可以通过以下两种方法来删


除:



①左键单击待删除的结点,用


delete


删除;



②右键单击待删 除的结点,在出现的菜单中选择


delete





15


5.4.3


将结点连接到数据流中


< /p>


上面我们介绍了将结点添加到数据流程区的方法,


然而要使结点真 正发挥作


用,


我们需要把结点连接到数据流中。


以下有三种可将结点连接到数据流中的方


法:



①双击结点。左键选中数据流中要连接新结点的结点(起始结点),双击结

点面板中要连接入数据流的结点


(目标结点)


< p>
这样便将数据流中的结点与新结


点相连接了;





4.12


双击目标结点以加入数据流



②通过鼠 标滑轮连接。


在工作区内选择两个待连接的结点,


用左键选中连 接


的起始结点,按住鼠标滑轮将其拖曳到目标结点放开,连接便自动生成。


(如果


鼠标没有滑轮也选用


alt

< br>键代替)





4.13


由滑轮连接两结点



③手动连接。右键 单击待连接的起始结点,从弹出的菜单栏中选择


Connect



选中


Connect


后鼠标和起始结 点都出现了连接的标记,用鼠标单击数据流程区内


要连接的目标结点,连接便生成。





4.14


选择菜单栏中的


connect





4.15


点击要连入的结点



注意:



①第一种连接方法是将选项面 板中的结点与数据流相连接,


后两种方法是将


已在数据流程区中 的结点加入到数据流中;




16


②数据读取结点


(如


SPSS Fil e



不能有前向结点,


即在连接时它只 能作为起


始结点而不能作为目标结点。



5.4.4


绕过数据流中的结点



当我们暂时不需要数据流中的某个结点时我们可以绕过该结点。在绕过它

时,


如果该结点既有输入结点又有输出结点那么它的输入节点和输出结点便直接


相连;


如果该结点没有输出结点,


那么绕过 该结点时与这个结点相连的所有连接


便被取消。



方法:


用鼠标滑轮双击需要绕过的结点或者选择按住


alt


键,


通过用鼠标左键


双击该结点 来完成。





4.16


绕过数据流中的结点



5.4.5


将结点加入已存在的连接中



当我们需要在两个已连接的结点中再加入一个结点时,


我们可以 采用这种方


法将原来的连接变成两个新的连接。



方法:


用鼠标滑轮单击欲插入新结点的两结点间的连线,

按住它并把他拖到


新结点时放手,新的连接便生成。(在鼠标没有滑轮时亦可用


alt


键代替)





4.17


将连线拖向新结点




17




4.18


生成两个新的连接



5.4.6


删除连接



当某个连接不再需要时,我们可以通过以下三种方法将它删除:



①选择待删除的连接,单击右键,从弹出菜单中选择


Delet e Connection




②选择 待删除连接的结点,按


F3


键,删除了所有连接到该结点上的连 接;



③选择待删除连接的结点,从主菜单中选择


Edit Node Disconnect





















5.4.7


数据流的执行





4.19


用右键删除连接



数据流结构构建好后 要通过执行数据流数据才能从读入开始流向各个数据


结点。执行数据流的方法有以下三种 :





选择菜单栏中的按钮,数据流区域内的所有数据流将被执行;






先选择 要输出的数据流,再选择菜单栏中的按钮,被选的数据流将被执


行;



③选择要执行的数据流中的输出结点,


单击鼠标右键,


在弹出的菜单栏中选



Execute


选项,执行被选中的数据流。




18




4.20


执行数据流的方法



5.5


案例模型建立







以药物 治疗为例,了解


Clementine


建模过程。



假设你是一位正在汇总研究数据的医学研究员。


你 已收集了一组患有同一疾


病的患者的数据。在治疗过程中,每位患者均对五种药物中的一 种有明显反应。


你的任务就是通过数据挖掘找出适合治疗此疾病的药物。




此示例使用名为




的流,此流引用名为



DRUG1n


的数据文件。


这些文件可在任何



Clementine Client


安装程序的



Demos


目录中找到。此目录


可通过



Windows“


开始



菜单的



Clementine


程序组进行访问。文件




位于



Classification_Module


目录中。





4.21



Demos


目录



案例中用到的字段如下:

















4.1


案例字段表




19



下面给出详细的步骤:



Step1:


读取文本。


< p>
你可以使用变量文件节点读取定界文本数据。


可以从选项板中添加变量文件


节点,方法是单击



选项卡找到此节点 ,或者使用


收藏夹


选项卡(默认情况下,


其中包含此节点)。然后,双击新添加的节点以打开相应的对话框。




















4.22


向流工作区添加节点



单击紧挨



文件



框右边以省 略号


“...”


标记的按钮,浏览到您系统中的



Clementine


安装目录。打开



Demos


目录,然后选择名为



DRUG1n


的文件。



选择从文件读取字段名,并注意已载入此对话框中的字段和值。




















4.23


载入字段操作

< br>



20


单击数据选项卡,< /p>


覆盖和更改某个字段的存储。


注意,


存储 不同于类型或数


据字段的用途。



















4.24


设置字段值类型



类型选项卡可帮助你 了解数据中的更多字段类型。


还可以选择读取值来查看


各个字段 的实际值,具体取决于您在值列中的选择。此过程称为实例化。



















4.25


设置字段实际值



Step2:


添加表格



现在你已载入数据文件,


可以浏览一下某些记录的值。


其中一个方法就是构


建一个包含表节点的流。


要将表节点添加 到流中,


可双击选项板中的表节点图标


或将其拖放到工作区。< /p>
























4.26


表格在节点栏位置




21


双击选项板中的某个节点后,该节点将自动与流工作区中 的选定节点相连


接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相 连接。


要模拟鼠标中键操作,请在使用鼠标时按下



Alt


键。

















4.27


节点之间连接



要查看表,请单击工具 栏上的绿色箭头按钮执行流,或者右键单击表节点,


然后选择执行。



















4.28


查看表节点数据



Step3:


创建分布图


< p>
数据挖掘过程中,创建汇总视图通常有助于研究数据。


Clementin e


提供了


若干不同类型的图表供您选择,

具体取决于您要汇总分析的数据类型。


例如,


< p>
找出每种药物的对症患者的比例,请使用分布节点。





4.29


分布节点结果





22















4.30


选择要显示分布图的字段



将分布节点 添加到流,


并将其与源节点相连接,


然后双击该节点以编辑要显


示的选项。


选择药品作为要显示其分布的目标字段。

< p>
然后,


在对话框中单击执行。



















4.31


选定字段节点值分布图



最终图表将有助于您查看数据的



结构



。结果表明,药品



Y


的对症患者最


多,而药品



B


和药品



C


的对症患者最少。



此外,


您还可以添加并执行数据审核节点,


可以在< /p>



输出



选项卡 中找到数据


审核节点。



同时快速浏览所有字段的分布图和直方图。
























4.32


数据审计节点位置





23



















4.33


各字段值描述图



Step4:


创建散点图









4.34


流图



现在我们来看一下有哪些因素会 对药品


(目标变量)


产生影响。


作为研 究员,


你一定知道钠和钾的浓度在血液中有着重要的影响。


由于 两者都是数值,


你可以


用颜色区分药品,创建一个关于钠和钾的 散点图。






























4.35


在流中添加散点图节点



将散点图节点 放在工作区中,


并将其与源节点相连接,


然后双击该节点对其< /p>


进行编辑。




24




4.36


选择要散点的字段





散点图



选项卡中,选择< /p>



Na


作为



X


字段,选择



K


作为



Y


字段,并


选择药品作为交叠字段。然后单击执行。





















4.37


字段散点图



此散点图清楚地显示了一 个阈值,在此阈值上方,对症药品始终是



Y

< br>,在


此阈值下方,对症药品均不是



Y


。此阈值等于钠



(Na)


和钾



(K)


的比。




Step5:


创建网络图


< p>
因为很多数据字段均可分类,


你也可尝试绘制网络图,

此图表将反映不同类


别之间的联系。首先,将网络节点与您工作区中的源节点相连接 。






















4.38


流中添加网络节点





网络节点



对话框中,选择



BP


(血压)和药品。然后单击执行。





25























4.39


添加字段



此图显示,药品



Y


与三种级别的血压均相关。这并不奇怪,因为你早已看




Y


是最佳药品。要关注其他药品,你可以隐藏此药品。右 键单击药品



Y


,然

< br>后选择隐藏并重新计划。















4.40


药物与血压网络图



简图中隐藏了药品


Y


及其所有链接。现在你可以清楚地看到,只有药品

< p>


A




B


与高血压有关。只有药品



C




X


与低血压有关。而药品



X


与正常血压


有关。此时,您仍然无法在药品



A




B


或药品



C




X


之间 为指定患者作出


选择。这时,建模可以助你一臂之力。




26


















4.41



药物与血压关系



Step6:


导出新字段



由于钠与钾的比似乎可以用来预测何时可以使用药品



Y


,因此你可以为每


条记录导出一个包含此比值 的字段。


该字段稍后可用于构建模型以预测何时可使


用五种药品 中的每一种药品。

























4.42


散点图



首先,在流中插入一个导出节 点,然后双击此节点对其进行编辑。





4.43


添加导出节点



将新字段命名为



Na_to_K


。由于是通过将钠值除以钾值获取新字段,所以


请在公式中输入


Na/K


。你还可通过单击紧挨该字段右侧的图标来创建公式。




27




















4.44


建立新字段



此操作将打开表达式构建 器,


这是一种使用函数、


操作数、


字段 及其字段值


的内置列表交互式创建表达式的方式。



















4.45


表达式构建器



您可以通过将直方图节 点添加到导出节点来检查新字段的分布情况。


在直方


图节点对话 框中,




Na_to_K


指定为要绘制的字段,


并将药品指定为交叠字段。





















4.46


编制直方图




28


执行流时,将在此显示图表。您可以根据显示结果得出以 下结论:当



Na_to_K


字段的值等于或大于



15


时,应选择药品



Y






















4.47


药物直方图



Step7:


构建模型



通过研究和操作数据,


您能够得出某些假设结论。


血 液中钠与钾的比例以及


血压似乎都会影响药品的选择。


但您还不 能完全解释清楚所有关系。


此时似乎可


以通过建模找出某些答案 。


此种情况下,


您可以尝试使用规则构建模型

< br>


(C5.0)



拟合数据。



由于使用的是导出字段



Na_to_ K



您可以过滤掉原始字段



Na



K


< p>
以避免


在建模算法中重复操作。上述操作可通过过滤节点完成。

< p>




过滤



选项卡上,单击


Na


和< /p>


K


旁边的箭头。如果箭头上显示红色的


X



则表示该字段已被过滤。























4.48


过滤



然后,


将类型节点连接到过滤节点。


类型节点允许您指出要使用的字段类型

以及如何使用这些字段预测结果。




29

-


-


-


-


-


-


-


-



本文更新与2021-03-02 13:11,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/689760.html

实验一 Clementine12.0数据挖掘分析方法与应用的相关文章