-
数据库新技术考题
1
、云计算环境与分布式计算环境各提出了那些新的数据管理需求。
云计算环境新的数据管理需求:
与传
统数据库系统相比,目前云数据管理系统提供的接口有很多限制,只提供简单的数据存取接口或
< br>者极小化的查询语言,这增加了用户使用的难度,也增加了开发人员的负担.同时,相比于传统的分布式< /p>
关系数据库,云数据管理系统的查询性能也有很大的提升空间
.<
/p>
如何在现有云计算平台的基础上,完善云数
据管理系统的查询功能
并提高其数据处理的性能,是目前备受关注的挑战性问题
用户
接口和查询性能是目前云数据管理系统亟待提高的两个方面。
要求云数据管理系统中的查询处理及优化算法具备良好的扩展性,
不仅能够扩展到庞大规
模的云平台
上,而且能够实现资源的可动态增长及其带来的性能提升.云数据管理系统需
要将软硬件错误看成系统运
行的常态,错误发生时既要保证数据不丢失,又要保证数据的
读写操作能够正常进行。云数据管理系统应
当针对云数据的特点设计数据分布策略和查询
优化相关算法,从而提高其管理海量数据的能力。
云数据管理
系统要提供
SQL
接口,这样习惯于关系数据库查询语言的用户
不必重新学习新的接口或
者编程方法,云数据管理系统还要提供
UDF
(
User Defined Function
)接口,用户可以根据业务需求自己定
义数据查询操作。
分布式计算环境新的数据管理需求
在分布式环境下数据传输和数据倾斜等问题的出现使得在
MapReduce
实现连接成为一个非常具有挑
战性的问题。
分布式计算系统没有统一的控制手段,它的质量和可用性难以保证,网络是一个异
构的环境,分布式
计算技术需要解决异构环境的互操作问题。现有资源不可能以同一种方
式描述,有没有自动识别资源的方
法,所以分布式计算技术的使用具有范围性。
2
、简要叙述大数
据可用性的概念及目前主要研究内容
答:一个正确的大数据集
合至少以满足以下
5
个性质:
1
)一致性:数据集合中每个信息都不包含语
义错误或相互矛盾的数据。
2
)精确性:数据集合中每个数据都能准确表述现实世界中的实
体。
3
)完整性:
数据集合中包含足够
的数据来回答各种查询和支持各种计算。
4
)
< br>时效性:
信息集合中每个信息都与时俱进,
不陈旧过时。
5
)实体同一性:同一实体在各种数据源中的描述统一。
一个数据集合满足上述
5
< br>个性质的程度是该数据集合的可用性。
研究内容:
1
)高质量大数据获取与整合的理论和技术;
2
)完整的大数据可用性理论体系;
3
)数据错误自动检测与修复的理论和技术;
< br>
4
)弱可用数据上近似技术的理论和技术;
5
)弱可用数据上的知识发掘与演化的机理。<
/p>
3
、简述云
存储系统的主要安全需求有哪些?
答:数据安全是云存储系统
中最重要的安全需求之一。云存储系统中数据的安全性可分为存储安全性
和传输安全性两
部分,每个部分又包含机密性、完整性和可用性。
密钥管理分发机制,一直以来,数据加密存储都是保证数据机密性的主流方法。数据加密需要密钥
,
云存储系统需要提供安全高效的密钥管理分发机制保证数据在存储与共享过程中的机密
性。
其他功能的需求,由于相同密文在不同的密匙或加密机制
下生成的密文并不相同,数据加密存储将会
影响到云存储系统中的一些其他共能,例如数
据搜索,重复数据删除等,云存储系统对这些因数据加密而
被影响的功能有着新的需求。
4
、云环境下分布式缓存技术主要面
临的问题与解决方案
1
)缓存服务的
性能隔离。改进的全局缓存替换方法,两种方案。通过为租户动态加权的方式确保访
问频
率低的租户内容不会很快被替换出内存;根据租户当前占用的内存空间是否少于目标空间,动态选取
该租户或其他租户数据替换出缓存。
2
)
虚拟环境下数据迁移的优化。
基于反馈控制的方
法,
周期性的求解满足
QoS
约束下的
最优迁移速率;
采用控制理论解决数据迁移中的开销优化问题
.
基于多元回归法构建迁移时间与性能衰减度的预测函数
,
将
二者线性加权得到迁移开销模型
,
最终实现以最小化开销为目标的迁移速率控制。
3
)缓存策略的自适应与自管理。使用跟踪驱动模拟
(tra
ce-driven
simulation)
方法为每个
Web
< br>文件选取最优
一致性策略;基于规则的方法
,
策略选取规则由带宽、数据变化率以及用户一致性需求要素组成;根据统计
结果及识别规则
(detection rule)
对当前访问
模式进行分类
,
根据分类结果采用相应的最优替换策略。
5
、
MongoDB
的分片存储与分布式数据库有何不同?
答:
MongoDB
提供了一种
自动分片的机制来实现系统的水平扩展。
虽然分片的概念源于关系型数据库
的分区,但还是有一些差别。最大的差别是
MongoDB
< br>自动地完成所有的工作而不需要人工的介入,并且当
各个分片中的数据分布不均衡
时,自动完成数据的重分布。
MongoDB
的自动分片
(Auto
.
Sh
arding)
机制在设计时主要实现以下三个目标
:
1
)使集群“不可见”
,应用程序不必知道其
所需要的数据存储于哪个服务器上,也不必了解整个集群
的架构。
2
)使集群可随时读写,
Mong
oDB
通过几种不同的方式来最大化系统的正常运行时问
p>
3
)使集群容易扩展,当一个系统需要更多的空
f
刚和资源时,必须能够简单并且容易地进行扩展。
p>
MongoDB
自动分片机制的基本原理是将数据集合分成小块
p>
(chunk)
,这些块使用系统的均衡策略分散
< br>到若干个片
(shard)qb
,每个片包含数据集的一
部分。当各个片中的数据分布不均衡时,均衡策略会自动重
新分布数据,维持各个片中数
据的均匀分布,不需人工干预。
在
M
ongoDB
分片集群中,
数据是按一定的顺序组织在一起的,
即片键相邻的数据倾向于存储在同一个
服务器上。
在
MongoDB
自动分
片集群中采用的方式是一个片中可以包含多个范围的数据。
这种方式有效地减少了
需要迁移的数据总量,特别是当集群中添加了新的片时,每个片将自己的部分数据移动到新片中
。这种方
式将数据从包含数据最多的片直接移动到目标片中,而不必在其他的片中进行中
转,均衡效果最为有效且
移动的总数据量最小。
MongoDB
自动分片集群中,
数据迁移以块为单
位,
当一个特定片中含有过多的数据时,
这个片中的块
就会迁移到其他的片中
MongoDB
自动分片机制引入了
balancer
负责数
据迁移和负载均衡,
balancer
是一个后台运行的任务,
被
集成在
mongos
中。均衡的操作
对于客户端是透明的,客户端的应用程序不必在意数据是否正在被移动。
6
、
H-S
tore
与
VoltDB
采用怎样的技
术方法解决大数据存储、易扩展及性能问题?
答:
H-Store
是第一个实现的新型并行数据库管理系统,称为
NewSQL
。这种数据库系统提供了
NoSQL
系统所具有的高吞吐量和高可用性的,而且并没有放弃传统
DB
MS
的事务处理的功能。这样的系统能够在
多台计算机上进行并
行计算,以提高吞吐量,而不是运行在一个超强大,超昂贵的单节点计算机上。
V
oltDB
提供了
NoSQL
数据库的可伸缩性和传统关系数据库系统的
ACID
一致性,不同
NoSQL
的
key-value
储存,
V
oltDB
能使用
SQL
存取,支
持传统数据库的
ACID
模型。
p>
V
oltDB
通过
SQL
引擎把数据
分发给集群服务器的每个
CPU
进行处理。
每个单线程分
区自主执行,消除锁定和闩锁的需求。
V
oltDB
可
以通过简单的在集群中增加附加节点的方式实现性能的线性增加。
7
、简述元搜索
技术、数据空间以及跨媒体检索的技术要点
答:元搜索技术:
元搜索功能一般由可三个子功能组成
,
即数据源连接、自动信息抽取、个性化与多样化
.
数据源连接
通过分析数据源的查询接口
,
实现查询请求的自动提交
.
自动信息
抽取对数据源的返回结果以不同的数据
粒度提取其中包含的有效数据
.
个性化与多样化提供了用户对数据源的个性化选择并且借助多种类型的数
据源为用户带来了多样化的数据结果
.
数据空间:
数据空间是由各种数据及其关联共同组成的一个数据集合
.
与数据集成相比
,
数据空间更关注于
数据
间的相关性
,
即
< br>
先有数据
,
后有模式
其数据关联更加灵活、松散、滞后
.
灵活体现在中间模式和模式映射
不再固定不变
数据空间功能主要由四个子功能共同构成
,
包括数据关联、数据建模、
PAYGO
数据查询以及索引技术
.
其
中数据关联是发现
W eb
数据、
数据模式间存在的各种关联
;
数据建模将设计合适的数据模型使其有能力依
据数据空间的原则描述
p>
W
eb
数据及其各种联系
; PAYGO
数据查询则利用这种自增的数据关联在数据模型
中进行自增的数
据查询
;
索引技术根据
PAYGO
的查询模式
,
预先建立索引提高查询效率。
跨媒体搜索:
跨媒体检索功能通常由四个子功能构成
:
语义关联、语义建模、跨媒体检索以及索引技术
.
语义关联
从多个层面发现媒体间语义上的相关性
;
借助语义建模描述媒体间语义距离
;
根据用户提交的检索对象
,
计算数据空间中数据与检索对象间的语义相似度
,
进行跨媒体检索
;
使用索引技术降低
跨媒体检索计算的
时空开销
,
提高检索效率
。
8
、
Twitter
Storm
,
Yahoo!S4
及
RTMR
(实时
MapReduc
e
)三个实时流处理方式的主要实现技术及
性能分析
-
-
-
-
-
-
-
-
-
上一篇:移动硬盘怎么连接电视机
下一篇:话题作文之以电视为话题写作文