关键词不能为空

当前您在: 主页 > 英语 >

大数据建模和算法特征

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-02 13:36
tags:

-

2021年3月2日发(作者:college是什么意思)


















Coca-cola standardization office



ZZ5AB-ZZSYT- ZZ2C-ZZ682T-ZZT18






零售银行为了给客户提供更加优质 的服务,需要通过分析银行系统本身数据库所保留


的客户资料信息,对客户进行分类管理 。





近年 来,大数据已成为科技界和企业界关注的热点,越来越多的企业和研究者正


在关注大数据 的应用。大数据的分析与挖掘技术在科学界正在如火如荼的展开,各种大数


据的新算法被 开发研究出来,例如近年来发展比较完善的一种数据分析挖掘算法支持向量


机。



与此同时,大数据分析在商业中的运用受到人们的追捧,各种大数据在 商业中成功运


用的案例层出不穷,比如美国大型零售商


targ et


公司的广告精准推送。本文将对大数据


分析技术以及大数据 分析技术在零售银行行业的作用进行一番探讨。



什么是大数据



2011


年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的


研究报告中首次提出大数据的概念。报告认为数据已经渗透到每一个行业和业务职能领


域 ,数据中蕴含着巨大的价值,这些价值将导致数据成为重要的生产因素。


2012


年《纽


约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业 、经济及其他领域中,最


终决策将日益基于数据和分析而作出,而并非基于经验和直觉。


2012



3


月,美国奥巴


马政府宣布投资


2


亿美元 启动“大数据研究和发展计划”,这是继


1993


年美国宣布“ 信


息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石


油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。



进入


21


世 纪,互联网的兴起促成了数据量的大规模增长。互联网时代,几乎全民都


在制造数据,与 此同时,数据的形成也极其丰富。一方面,既有社交网络、多媒体、协同


创造、虚拟服务 等应用所主动产生的数据


;


另一方面,又有搜索引擎、网页浏览 过程中被


记录、被收集的数据。该阶段数据的特点是用户原创、主动、交互。

< p>


根据国际数据公司


(IDC)

< br>的研究报告,


2011


年全球被创建和被复制的数据总量 为


(



据存储单位,泽字节,等于


1024


艾字节或


270


个字节


)


,且增长趋势遵循新摩尔定律,


预计到


2020


年,全球数据量大约每两年翻一番, 全球将拥有


35ZB


的数据量。正是由于信

息技术的发展,大数据才能生成和发展。大数据技术正是从海量的、多样化的数据中,快

速获得有价值信息的能力。



大数据指的是所涉及的数据量 规模巨大到无法通过人工,在合理时间内达到截取、管


理、处理、整理成为人类所能解读 的信息。在维克托



迈尔


-

< p>
舍恩伯格及肯尼斯库克耶编写




的《大数据时代》中,大数据分析是指不用随机分析抽样调查的方法,而采用对所有数据


进行分析的方法。



基于目前对大数据的认识,通常认 为大数据具备了


4V


特点,即


Volu me(


大量


)



Variety(


多样


)



Velocity(


高速


)


Value(


价值


)

< p>
。这四个特点从四个方面描述了大数据分


析技术:第一,数据体量巨大。从


TB


级别到


PB


级别,甚至跃升至


EB


乃至


ZB


级别


;



二,数据 类型多样。包括网络文本、日志、视频、图片、地理位置信息等各种结构化和非


结构化的 数据都有,一切信息皆为数据。第三,处理速度快。利用各种大数据分析工具,


比如


hadoop



SPSS

< br>,可从各种类型的数据中快速获得高价值的信息,这一点和传统的数


据分析技术有 着本质的区别。第四,只要合理利用数据并对其进行正确、准确的分析,挖


掘出数据内部 隐藏的相关关系将会带来很高的价值回报。



与传统的逻辑推理 研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比


较、聚类和分类等分析归 纳。大数据分析比较关注数据的相关性或称关联性,所谓“相关


性”是指两个或两个以上 变量的取值之间存在着某种规律。“相关分析”的目的是找出数


据集里隐藏的相互关系网


(


关联网


)


。 因此大数据是侧重找出相关关系而不是找出因果关


系。也许正是由于大数据分析侧重于寻 找相关关系,才促使大数据分析技术在商业领域广


泛应用。商业的运用在于盈利,因此只 要从数据挖掘中发现某种因素与增加盈利有较强的


关联性,然后全面开发该相关因素就行 。



大数据分析建模的基本思路技巧



有了大量数据之后,下一步就是分析这些数据,期望通过合适的数据分析挖掘技术建


立模型找到蕴藏在数据下面的客观规律。大数据分析技术经过这么多年的发展,已经形成


了一些分析建模的基本思路。


CRISP-DM(

< br>即“跨行业数据挖掘标准流程”的缩写


)


是一种业


界认可的用于指导大数据分析挖掘工作的方法。



CRISP-DM


认为在大数据分析中存在一个大数据分析挖掘 生命周期模型。在这个生命


周期模型中存在着商业理解、数据理解、数据准备、建立模型 、模型评估和结果部署这六


个阶段。图


1


中展示了这六个阶段的关系,其中箭头的多少表示各个阶段间依赖关系的使


用频率和重 要程度,每个阶段之间并不一定要严格遵守顺序。实际上,大多数项目都会根


据需要在这 些不同的阶段之间来回移动。



商业理解通常是指理解业务的实 际类型,业务上的实际问题并且尝试尽可能多地了解


数据挖掘的业务目标。数据理解是指 数据理解阶段包含深入了解可用于挖掘的数据,此过


程包括初始数据的收集,初始数据的 描述以及数据质量的验证。数据准备是数据挖掘最重


要的阶段之一,通常需要花费大量的 时间。据估算,实际的数据准备工作通常占


50-70%


的项目 时间和工作量。





数据准备通常包含以下任务:合并数据集和记录、选择数据子集样本、汇总记录、导

出新的属性、排序数据以便建模、删除或替换空白值或缺失值、分为训练数据集和测试数

据集等。经过数据准备,下一阶段就是建立模型。建模时通常会执行多次迭代,选择合适

的模型算法,运行多个可能的模型,然后再对这些参数进行微调以便对模型进行优化,最

终选择出一个最佳的模型。在模型评估阶段,需要对项目结果是否达到业务成功标准进行

评估。此步骤的前提条件是对声明的业务目标有清晰的了解,因此在前期的商业理解越发

显得重要。模型评估完成之后就进入到结果部署阶段,在该阶段就是将前期选择出来的最

佳模型应用到实际业务中去,并得到最终报告。



大数据分 析通过预测未来趋势及行为,做出知识的决策。大数据分析挖掘的主要目标


功能有以下几 个:



第一,自动预测趋势和行为。数据挖掘自动在大型数据库 中寻找预测性信息,以往需


要进行大量手工分析的问题如今可以迅速直接由数据本身得出 结论。比如在


GOOGLE


流感


分析案 例中预测流感爆发的时间和地点。



第二,关联分析。数据关联 是数据库中存在的一类重要的可被发现的知识,若两个或


多个变量的取值之间存在某种规 律性,就称为关联。关联分析旨在找出具有强相关关系的


几个属性。典型案例是啤酒和尿 布的关联分析,关联分析经常用在电子商务的产品推荐


中。


< /p>


第三,聚类。数据库中的一些相类似的记录可以划归到一起,即聚类。聚类常常帮助


人们对事物进行再认识。在社交网络分析中经常用到聚类技术。



大数据分析技术经过这几年的发展,已经形成了一些比较成熟稳定的模型算法。常见


的模型算法有关联规则分析


(Apriori)


、决策树、神经网络、


K-MEANS


聚类、支持向量


机、多元线性回归、广义线性回归、贝叶斯网络、


Cox


以及


K


近邻等。这些算法模型有的

适合预测趋势和行为,有的适合关联分析,有的适合聚类分析


;

每种模型算法都有各自的


优劣性,我们可以针对不同的场景选择合适的算法模型进行 大数据分析挖掘。一些常用的


模型算法的优劣性和适用场合如表


1


所示:




1


:大数据常用模型算法的特征分析





模型算法优点缺点应用场合



关联规则分析


(Apriori)


算法容易理 解,能够用简单的


if-then


规则描述数据之间的


完备关系


;


得出的规则具有可读性


;


能处理连续和离散的数据数据间可能不存在强规则


;



-


-


-


-


-


-


-


-



本文更新与2021-03-02 13:36,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/689966.html

大数据建模和算法特征的相关文章