-
第一章
一.填空
<
/p>
1
.数据挖掘和知识发现的三大主要技术为:数据库、统计学、机
器学习
2
.数据挖掘获得知识的表现
形式主要有
6
种:规则、决策树、知识基网络权值、公式、案<
/p>
例
3
.规则是
由前提条件、结论两部分组成
4
.基
于案例推理
CBR
的基础是案例库
<
/p>
5
.知识发现的基本步骤:数据选择、处理、转换、数据挖掘、解
释与评价。数据挖掘是知
识发现的关键步骤
< br>6
.数据挖掘的核心技术是:人工智能、机器学、统计学
7.
目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物
开发、医院信息系统、遗传学
等方面
二.名解
1
.数据挖掘
DM
:在数据中正规的发现有效的、新颖的、潜在有
用的、并且最终可以被读
懂的模式的过程
2
.
案例推理
CBR
:
当要解决一个新问题时,
CBR
< br>利用相似性检索技术到案例库中搜索与新
问题相似的案例,再经过对就案例的修改
来解决新问题
三.简答
1
.数据挖掘的特点
a
p>
挖掘对象是超大型的
DB
,
b
发现隐含的知识,
c
可以用
于增进人类认知的知识,
d
不是
手工完
成的
2
.案例是解决新问题的一种知
识,案例知识表示为三元组
a
问题描述:
对求解的问题及周围环境的所有特征的描述,
b
解描述:
p>
对问题求解方案的
描述,
c
效果描述:描述解决方案后的结果情况,是失败还是成功
3
.医学数据挖掘存在的关键问题
a
p>
数据预处理,
b
信息融合技术,
c
快速的鲁棒的书库挖掘算法,
d
提供知识的准确性和
安全性
4
.数据挖掘在遗传学方面的应用
遗传学
的研究表明,遗传疾病的发生是由基因决定的,基因数据库搜索技术在基因研究
上做出了
很多重大发现,
其工作主要包括:
a
从
各种生物体的大量
DNA
序列中定位出具
有某种功能的基因,
b
在基因
DB<
/p>
中搜索与某种具有高阶结构或功能的蛋白质相似的高
阶结构序列<
/p>
第二章
一.填空
1
.
DM
的对象分为:关系型
DB
、数据仓库、文本
DB
、复杂类型
DB
2
.从用户角度来看,数据仓库的基本组成
包括:数据源、数据存储、应用工具、可视化用
户界面
3
.数据仓库是最流行的数据模型是多维数据模型,多维数据模型将数
据看作是数据立方体
的形式,数据立方体是由维和事实来定义
4
.常用的多维数据模式包括:星型模式、雪花模式、事实星座
模式。星型模式是由事实表
和维表构成
5
.
WEB
DM分为:WEB内容挖掘、WEB结构挖掘、WEB使用挖掘
二.名解
1.数据仓库:一个面向主
题的、集成的、时变的、非易失的数据集合,用以支持管理活动
的决策过程
2.
数据立方体:
指以两维或多维来描述或者分类数据。
这里的
维类似于关系数据结构中的
属性或者字段
3.WEB数据挖掘:指同万维网相关数据的挖掘
三.简答
1.人们使用文本
DB
的三个主要目的
a
p>
用户需要便利的获得全文文本,即文献检索,
b
用户应用此类数据库确定需要阅读的
相关资料,
c
用户希望从文本数据库中获得信息的特异性片段,即从相关资料的特异性
部分获得某个特意问题的答案
2
.<
/p>
WEB
数据库中的数据可以分为五个类别
a
p>
网页的内容,
b
网页间的结构,
c
网页内的结构,
d
描述
用户如何使用网页的数据,
e
用户的人口统计学和注册信息
p>
第三章
一
.
填空题
1.
确定商业目标
,
< br>认清数据挖掘的目的是
DM
的第一步
2.
影响
DM
< br>结果质量的两个因素是
:
所采用
DM
技术的有效性
(
模型的选择
),
用于挖掘的数据
的质量和数量
3.
数据质量的含义包含四个方面
:
数据的正确性
,
数据的一
致性
,
数据的完整性
,
数据的可靠性
4.
数据清洗
的技术
:
空值处理
,
< br>噪音数据
,
不一致数据等处理技术
5.
数据挖掘模型按功能可分为
:
预测模型
,
描述模型
< br>.
其中前者包括
:
分类模型
p>
,
回归模型
,
时间
序
列模型
;
后者包括
< br>:
聚类模型
,
关联模型
,
序列模型
6.
p>
模型准确性的测试分为三类
:
简单验证
p>
,
交叉验证
,
自举
法
二
.
名词解释
1.
静态数据
:
开展业务活动所需要的基本数据
(
动态数据的基础
,
保持数据的唯一性
)
动态数据
:
指每笔业务发生时产生的事务处理信息
2.
数据归纳
:
其目的是建立用于挖掘的合适的数据集合
,
缩小
处理范围
,
是在数据选择的基础上
对挖
掘数据的进一步约简
,
又叫数据缩减或数据收缩
三
:
简答
-DM
模型的六个阶段
理解问题
,
理解数据
,
准备数据
,
建立模型
,
方案评估
,
方案实施
2.
数据准备包含的方面
a
从多个数据源中整合数据挖掘所需要的数据
,<
/p>
保证数据的综合性
,
易用性
,
数据的质量和数
据的时效性
;b
如何从现有数据中衍生出所需要的指标
3.
在数据生成
,
处理和管理
的许多阶段都会引入错误
,
主要包括
a
数据输
入和获得过程的错误
;b
数据集成所表现出来的错误
(a
度量纲问题
b
命名冲
突问题
c
数据精度问题
d
汇总问题
);c
数据传输过程所引入的错误
4.
通过历史数据预测未来
< br>,
它的的有效性的前提条件隐藏着三个假设为
a
过去是
将来的好的预测器
;b
数据是可利用的
;c
数据包含我们想要的预测
5.
预测模型和描述模型的区别
数据挖掘模型按照功能分为预测模
型和描述模型
.
在预测模型中
,
用来预测的称为独立变量
,
要预测的称为相关
变量或目标变量
.
预测模型包括分类模型
,
回归模型和时间序列模型
;
描
p>
述模型包括聚类模型
,
关联模型和序列模型
.
前者有时又称为有监督学习
,
可直接用来检测
模型的准确性
,
一般在建立这些模型时
,
使用一部分数据作为样本<
/p>
,
用另一部分数据来检验
,
校正模型
;
后者又称为无监督学习
< br>,
因为在模型建立前结果是未知的
,
模型的产生不受任何