关键词不能为空

当前您在: 主页 > 英语 >

来自维基百科对大数据的定义

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-03-01 09:16
tags:

-

2021年3月1日发(作者:活该)


来自维基百科对大数据的定义












































————————————————————————————————


作者:



—————————— ——————————————————————



日期:





?


Big data-From Wi


ki


ped



a


In in



orm

< br>ati


on




ec



nology,


big




a ta[1]



2]



is



a col


ec



io



of



ata




ts




o


l



rge


and



omple




tha





t



e< /p>



o


me


s < /p>



iffic


ul


t



t




pro



ess



us


ing



on


-h


and


a



ab



se


management


t



ols




r



tr< /p>



dition



l


d


ata



p



ocessing ap


pli


ca


ti


on< /p>



. The ch


< br>ll


en


g


< br>s



n


lu



e c


< br>pt



re


< br>


c



rat

< br>ion


,



to



age,



3

< p>



sea


rch


, sh


ar


i



g, analys is,



4





n




visualiz



tion.

< p>


Th


e trend





larger



a


ta



set


s is



ue



o the



dditional


in


form



t



on d



r



va



le



rom a



aly


sis



of a



ingle



a



ge set of r



lated d



ta,



as



co


mpared to


se


par



te



smaller



et




wi


th



he


same


to


t



l


amo


un


t


o




da


ta, allowi



g


corre


la


t



ons


t




b




fo


un


d


to




po


t



bu



ines




trends



de



e



mine


q



alit

< p>



of


re


sea


rch,



preve



t

dis


e



ses,


lin




leg


al



citations





om



at


c



i


me< /p>


,


an



< /p>


de



e


rm< /p>


ine



eal-time ro



dway



raff



c



onditions.



[ 5



[



][ 7]


在信息技术中


,


“大数据”是指 一些使用目前现有数据库管理工具或传统数据处理应用很难


处理的大型而复杂的数据集。 其挑战包括采集、管理、存储、搜索、共享、分析和可视化。


更大的数据集的趋势是由于 从相关数据的单一大数据集推导而来的额外信息


,


与分离的较小


的具有相同数据总量的数据集相比


,


能 够发现相关性来


“识别商业趋势



sp



t b



s



nes




t



ends



、确定研究的质量、预防疾病、法律引用链接、打击犯罪以及实时确定道路交通状


态”






s



f


2012




lim


i



s


on


the


s



ze



f



data


sets



h


at




r




fea



ib


l< /p>


e



to




r



cess in a r



ason


< p>
ble amount of time we



e on



h




orde





f




xabytes of da



a



[8]



9]


Sc


ient



st




r


eg


ul



r


ly



e



c


ou


nter limitations due to larg




dat





ets



in




any areas




i


c



uding



me



e

< br>o


rol



gy, g



n


omic


s,[1


0]



conn



ctom



cs

< br>,



co


mp


lex



hysics s



mu



ati



n



,[11]


an


d biological and


nvi



onmental r es


ea


rch.


< br>1


2]



Th




l< /p>


im



ta


ti


on




a



so affe



t I


< br>terne




se


ar


ch, finan



e and


< p>
busi



es




in



ormat ic


s.




ata


s



ts


grow



in


size




n


pa



t


< /p>


becau



e



the




a



e


increasi



gly


b



ing



athered


by

< p>
u



iqui



ou




i

< p>


format



on- sen



ing



obile



devices,



aeri



l


s



ns


or


y


te


ch


nolog

< p>


e




(remot




sensing),



of



ware


logs,


camer


as


,

< br>microph


one


s




ra



io-f r



qu


en


c




i


de n


ti



ic



ti



n



readers




an




wi r



le



s



s



nsor



et


wo


r



s.[



3][1



]



he


w



rld's

te


c



n



logical



per


-c


apit




ca


pa


c




y




o


st


o



e


inf



r



atio




has ro



ghly

< p>


ou


bled



ev


e



y 40



months




in



e

< br>


the



1980



;[15] as



f 20



2,



eve



y d



y 2.5


qui



ti


< br>lion (



.5×



01



) byt



s




f



a


ta



w



re c


rea


ted.[16]


截至


2012


年,数据集大小尺寸的限制是e


x abyte


数量级的数据,这种规模是指以可行的处


理方式在合 理的时间内进行数据处理。


在许多领域科学家们经常遇到大数据集的限制,


这些


领域包括气象学、基因学、


c

< br>o


n



ect

< br>o


mic


s、复杂的物理仿真、以及生物和环境研究。这


些限制也影响到了互联网、


金融和商业情报信息的研究。


数据集大小的增长是由于这些数据


集不断地通过无处不在的信息感应移 动设备、航空传感技术


(


遥感


)


、软件日志、摄像头、麦


克风、


无线频率识别 阅读器


(ra



io-fr

< p>


q


ue


nc

< p>



iden



i


fi


catio


n< /p>



reader



)-R



ID


和无

< br>线传感网络来收集和聚集。从


80


年代起,全球存储信息 人均信息存储能力在技术上大致每


40个月就翻一番;


a




of 201


2,



ev



ry d



y 2



5



qu inti



li


n (2



5×1



18)



yt






f

< p>
d



t




wer




cr



at



d.[16


]截至到


2012



,


每天产生的数据为


2.5


quintilli



n


2.5*10^1



)


字节。




Bi




da



a


is


di



ficu



t


to



work


wi



h


< /p>


u



i



g



relat


i< /p>


on


al



d



tabases


an




d< /p>


e



ktop s


tati


stics



nd vi


su

al



za


tion



p



ckages, re


qui


ring



instea






ively


pa


ra


ll


el

< p>


so



tw

< p>


re


running


on



tens,

< br>h


und



eds,

< p>


or


eve




thousand




of servers


".


[1



] What is con



idered


"b


ig data


va


r


ie


s depen



ing



n


th


e



a



abi lities



of



he o



g



niz



tion ma



aging the set, and on



h





apabi



it



es of t



e



p plic



ti


ns that ar




tr< /p>



dit



on al



y


us


ed to process a


nd



ana


lyze



h





ata



et in



i


ts



dom


ain


.



me orga


< br>iz


ati


ons, fac



n




hu



d


r< /p>


eds of





g



bytes of d



t




for the fir



t t



me



may



rigger





n



e





o reco



sider d


at


a ma


ag


em


ent opt


ions.



F



r other


s,



i




m



y



ta



e



te



s



or hu


ndr


e

< br>d


s




f terab


< br>t



s


be


fore d



ta si



e b



comes a



s



gnif


ic

< p>
ant consi



er



tion.



18]

< p>
使用关系型数据库和桌面统计和可视化软件包对大数据进行处理是困难的


,


它需要“将大规


模并行软件运行在数十台、数百台或甚至数千台 服务器


(


来处理)


< br>。什么是“大数据”取决


于企业管理数据集的能力、以及在其领域内使用传统方式 对数据集的处理和分析能力。


“对


某些企业来说,在第一次面对 处理上百G字节的数据时就要重新考虑数据管理的选择


,


而对< /p>


其他的企业来说,处理数百


TB


字节的数 据量不成问题。




D



fi



iti



n


Big



data


usua



ly




ncludes


data



set




with



si


zes




ey



n




the


a



il


it


y





co< /p>


mm


o



ly- us



d



of



wa


re



to


ols


to



c


a< /p>


p



ure,



cu



at



,


ma


nage


,


and


pro


ce


ss


th


e


dat




w



th



n


a


to


le


rable



el



psed


t



me.


B



g


data



izes



re


a




onst


an


tl




moving

< p>


arget




as


of


201




r



n



ing



from





e





o



e




terabyt



s to




any


etab


yt


es of data in



a



ingle d


at


a s



t.



Wi



h



his diffic


< p>
l



y,


a



new



l



tf



rm


o






d


at


a




tool




has



a



is


en



to


h


an


dle



ensemak



ng ov



r



large



uantities of



data, as in t


he



A



ache



Ha


doop




ig Data


Platfo



m.


大数据通常包括在尺寸上超出常用软件工具对数据在一定的可容忍时间间隔内进行采集、



理和处理的能力的数据集。


大数据的尺寸是一个不断 变化的目标


,


截至到


2012


年在一个单一


数据集中的数据范围从十数


TB< /p>


到数个P


B


。由于这种困难性

< p>
,


出现了新的“大数据“平台工


具来在大量的数据 中处理合理的数据


,


例如Ap


a



h



< p>
Ha



o



p


大数据平台。




MIKE



.0,



n




pen approach t




Inform



tion Ma



agement, de


fine


s big data in te



ms



of


u



e



ul


per



u



ati



ns




com



le



ity




an




d



fficulty


to


de


lete



i


nd


i


vid

ua





ec



rds



MIKE2.


0,一个开放的信息管理方式,从有用的排 列、复杂性和难以删除单一记录几个方面


定义了大数据。




In




2001



rese


arch


repo


rt[


19


]


and




elated


lec



ur



s,


M


ETA



Group



(no




G a


rtn



r




a



a< /p>



ys





oug L



ney d


fine





at




g



owth c

ha


lle


ng


es a



d o



po



tuni


ies as b



in




t



r



e-


di


m


en< /p>


si



na


l< /p>


,



i.


e.



nc


re


a sin





olu



e



(am



unt



f


data)




v



loci


y


(



p



ed


o




d



t




in


and


out)




and



vari


et


y



rang




of



ata



ypes


and


source



).



a



t


er




a



d


now


much



of



he


indu



t


y,



conti



ue t




u



e this



l




o




descr



bing b


ig




a ta.



20] In 2


01


2,


Gartne




up



ated


its



de



i



ition


as



fol


l


ows


:




at




a



e


high-volu



e,


h



gh- veloc



ty, a


nd


/



r



igh



v ariety in



o


< p>
mati



n



s



e


< p>
s that


re


quire



n



w


forms


o




p



oc



ssin g




o


< /p>


en



b



e




nhanc


ed




ecision


< br>m


aki



g,


in


si


gh


< p>


di



cover




and pr



cess


< br>ptim



z



tio



.



21]



2



01


年的研究报告和相关文献中


,

< br>M


ETA Grou


p(现在的


Gart



e



)


的分析师


Doug



L



ne


y将数据增长的挑 战和机遇定义成三维方式


,


即总量


(< /p>


数据量


)


、速度


(


数据进出(变化)的


速度


)


和多样性


(


数据类型和数据源的范围)



Gartne


r和目前业界大多数

< p>
(



)


延续使用这种



3


V“模型来描述大数据。在

< p>
2



12


年,

< p>
Gartner


更新了其对大数据的定义


:


”大数据是具备大


数据量、高变化速度和/或高度多样新的信息资产< /p>


,


这些信息资产需要新型的处理方式来强


化决策制定、洞察发现和处理优化。




Ex


a



p


le


s


Exam


ples


< br>in


c


lud


e



web



logs, RFI


D,



s



nsor ne

< br>t


wor



s, social




e

< br>t


w


or


ks,



social




ata (



ue to the social



ata revol


ut

< p>
ion



, I



ternet text and do

< br>c


ume


nt


s




Inte



ne




se


ar



h



n



exi ng,



all


det



il



r



c



rds,


astro


< br>omy,



atm


< p>
s



heric



sc


ienc


e,



genomic


s,



bio


ge


oc


< p>
emical,



biol



gi



al




a



d



ther



com



l



x



nd



ofte




inter



i


cip



i


na

< br>ry



c


ient

< p>
if



c re



earch, milita


ry



s


urv


eil



an


ce


, med



cal r



c


or


ds, phot


o< /p>


g



ap



y




rchiv es




vi


deo archives,



nd



a rge



s



ale e


-c


o


< br>m



r


ce

.


例子包括网络日志、


R



ID


、传感器网络、社交网络、社交数据


(


由于社交数据革命


)


、互联网


文本和文档、互联网搜索索引、呼叫详细记录(话单


-CD



)


、天文学、大气科学、基因学、


生物化学、


生物科学以及其他复杂和常常跨学科的科学研究、

< br>军事侦查、医疗记录、图片档


案、视频档案、和大规模电子商务。




Sc


i

< br>en


ce



and

< p>


e



earch


?



W



e




t



e



Sloan


Digi



a




Sky



Surve




(



DSS)


b



gan


colle


ct


ing



s


tr


o


nom


ica




data


i




2



00,



it


amas



ed


mor




in


its



f



rs




fe




wee



s


th



n




ll d



ta colle



ted in the



hi



to



y



f a



tron



my. C


on


tinu



n




a




a rate



o




ab


o


ut




0




G




pe




nigh



, SDSS



has



amas



ed mor




t



an 140 ter



bytes


o




i


nf


o


rm


ati o



.


When


t



e


L< /p>


a



g





y


< p>
opt



c


Su



ve





elesco



e< /p>


, su



c



s



or



to SDS


S,


< br>c



m


es


on


l



ne in



01





t is a


tici



ate




t




acqui


re



that



m



u



t



of



dat




every f


iv


e



d a



s.



5 ]



Sl



an D



gital Sky Sur



ey (


< br>DSS)


于2


00


0年开始采集 天文数据时,


在最初的几周内它积


累了比天文史上收集的所有数 据还要多的数据。现在他还以每夜大约


200



B


数据量的速率


增加。


SDS S


已经累积了超过1


40TB


的信息。 一旦大型的天文望远镜


,SD



S


的继任者


,


在2


0



6


年上线


,


预计它将每


5


天采集的数据量。




?



In


t



tal,


the


fo



r



main



det

ec



ors


at


the


Larg




H



dron



Collider



L



C)


produce




13 pe



aby

< br>t


es



f



da



a in 2



1



< /p>


(1


3,



00 terab



t


s



.[22]


总的说来,四个 主要的大型强子碰撞机在


2010


年所产生的是数据达到1


3PB



13


0< /p>


00TB)





Decodi



g


th




hum


an



g



no


me



o



iginally



to



k


1




yea



s


t




proc



ss;



ow



t ca




b




ach



eved




n one week.


[5


]


解码人体基因原来 需要


10


年的时间


,

< br>现在它能在


1


周之内完成。




?



Com p



t


at


i



nal socia




s



ience



Tobias Preis e





l





se




G



ogle



Tr



nds



at





o



em ons



rate



th


at Inter



et




sers f



om c



untri


es




it




a



highe




pe




capi



a


gros





om


es


tic

< br>p



oduc




(


GD


P)


are


mo


re



likely





sear



h f



r i


nfo

rma



ion



b



ut the



f



tur




than inf



r



ati



n about the


pa



t





h





indings sug



est



the


re




ay



e a link



etween onl


in


e beha


vi


our and real



worl




econo



ic indi


cat


o



s




23][24


]< /p>



25




T



e auth


r




o





he



study


e



amined

< br>G



og


e




uerie




logs




a



e

< br>


by



In

< br>t


er



et


u



ers



in


45




i



fe



en




co unt



i



s




n



01




a



d



calc


ulate


d


t


he



ratio


of



the



v



l



me



f


search

< br>e


s



for


the


coming


year




‘2



1



’ )


to




he



volume of searches



o




th




p< /p>


revi


ou


s year

< p>


‘2



0





, w


hic


h



the




call the



‘f



tur




or



entation



ind



x’


.[26




T



ey c



mpared



he f



tu


re



orienta

-


-


-


-


-


-


-


-



本文更新与2021-03-01 09:16,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/687423.html

来自维基百科对大数据的定义的相关文章