-
来自维基百科对大数据的定义
p>
————————————————————————————————
作者:
——————————
——————————————————————
日期:
?
Big data-From Wi
ki
ped
i
a
In in
f
orm
< br>ati
on
t
ec
h
nology,
big
d
a
ta[1]
[
2]
is
a col
l
ec
t
io
n
of
d
ata
s
e
ts
s
o
l
a
rge
and
c
omple
x
tha
t
i
t
b
e<
/p>
c
o
me
s <
/p>
d
iffic
ul
t
t
o
pro
c
ess
us
ing
on
-h
and
d
a
t
ab
a
se
management
t
o
ols
o
r
tr<
/p>
a
dition
a
l
d
ata
p
r
ocessing ap
pli
ca
ti
on<
/p>
s
. The ch
a
< br>ll
en
g
e
< br>s
i
n
c
lu
d
e c
a
< br>pt
u
re
,
< br>
c
u
rat
< br>ion
,
s
to
r
age,
[
3
]
sea
rch
, sh
ar
i
n
g, analys
is,
[
4
]
a
n
d
p>
visualiz
a
tion.
Th
e trend
t
o
larger
d
a
ta
set
s is
d
ue
t
o
the
a
dditional
in
form
a
t
i
on d
e
r
i
va
b
le
f
rom a
n
aly
sis
of a
s
ingle
l
a
r
ge
set of r
e
lated
d
a
ta,
as
co
mpared to
se
par
a
te
smaller
s
et
s
wi
th
t
he
same
to
t
a
l
amo
un
t
o
f
da
ta,
allowi
n
g
corre
la
t
i
ons
t
o
b
e
fo
un
d
to
po
t
p>
bu
s
ines
s
trends
,
de
t
e
r
mine
q
u
alit
y
of
re
sea
rch,
preve
n
t
dis
e
a
ses,
lin
k
leg
al
citations
,
c
om
b
at
c
r
i
me<
/p>
,
an
d
<
/p>
de
t
e
rm<
/p>
ine
r
eal-time
ro
a
dway
t
raff
i
c
c
onditions.
"
[
5
]
[
6
][
7]
在信息技术中
,
“大数据”是指
一些使用目前现有数据库管理工具或传统数据处理应用很难
处理的大型而复杂的数据集。
其挑战包括采集、管理、存储、搜索、共享、分析和可视化。
更大的数据集的趋势是由于
从相关数据的单一大数据集推导而来的额外信息
,
与分离的较小
的具有相同数据总量的数据集相比
,
能
够发现相关性来
“识别商业趋势
(
sp
o
t b
u
s
i
nes
s
t
r
ends
)
、确定研究的质量、预防疾病、法律引用链接、打击犯罪以及实时确定道路交通状
p>
态”
。
A
s
o
f
2012
,
lim
i
t
s
on
the
s
i
ze
o
f
data
sets
t
h
at
a
r
e
p>
fea
s
ib
l<
/p>
e
to
p>
p
r
o
cess
in a r
e
ason
a
ble amount of time we
r
e on
t
h
e
orde
r
o
f
e
xabytes of da
t
p>
a
.
[8]
[
p>
9]
Sc
ient
i
st
s
r
eg
ul
a
r
ly
e
n
c
ou
nter
limitations due to larg
e
dat
a
s
ets
in
m
any
areas
,
i
n
c
l
uding
me
t
e
< br>o
rol
o
gy, g
e
n
omic
s,[1
0]
conn
e
ctom
i
cs
< br>,
co
mp
lex
p
hysics s
i
mu
l
ati
o
n
s
,[11]
an
d biological and
e
nvi
r
onmental r
es
ea
rch.
[
< br>1
2]
Th
e
l<
/p>
im
i
ta
ti
on
s
a
l
so
affe
c
t I
n
< br>terne
t
se
ar
ch,
finan
c
e and
busi
n
es
s
in
f
ormat
ic
s.
D
ata
s
e
ts
grow
in
size
i
n
pa
r
t
<
/p>
becau
s
e
the
y
a
r
e
increasi
n
gly
b
e
ing
g
athered
by
u
b
iqui
t
ou
s
i
n
format
i
on-
sen
s
ing
m
obile
devices,
aeri
a
l
s
e
ns
or
y
te
ch
nolog
i
e
s
(remot
e
sensing),
s
of
t
ware
logs,
camer
as
,
< br>microph
one
s
,
p>
ra
d
io-f
r
e
qu
en
c
y
i
de
n
ti
f
ic
a
ti
o
n
readers
,
an
d
wi
r
e
le
s
s
s
e
nsor
n
et
wo
r
k
s.[
1
3][1
4
]
T
he
w
o
rld's
te
c
h
n
o
logical
per
-c
apit
a
p>
ca
pa
c
i
p>
t
y
t
o
st
o
r
e
inf
o
r
m
atio
n
has ro
u
ghly
d
ou
bled
ev
e
r
y
40
months
s
in
c
e
< br>
the
1980
s
;[15] as
o
f
20
1
2,
eve
r
y
d
a
y 2.5
qui
n
ti
l
< br>lion (
2
.5×
1
01
8
)
byt
e
s
o
f
d
a
ta
w
e
re
c
rea
ted.[16]
截至
p>
2012
年,数据集大小尺寸的限制是e
x
abyte
数量级的数据,这种规模是指以可行的处
理方式在合
理的时间内进行数据处理。
在许多领域科学家们经常遇到大数据集的限制,
这些
领域包括气象学、基因学、
c
< br>o
n
n
ect
< br>o
mic
s、复杂的物理仿真、以及生物和环境研究。这
些限制也影响到了互联网、
金融和商业情报信息的研究。
数据集大小的增长是由于这些数据
集不断地通过无处不在的信息感应移
动设备、航空传感技术
(
遥感
)
、软件日志、摄像头、麦
克风、
无线频率识别
阅读器
(ra
d
io-fr
e
q
ue
nc
y
iden
t
i
fi
catio
n<
/p>
reader
s
)-R
F
ID
和无
< br>线传感网络来收集和聚集。从
80
年代起,全球存储信息
人均信息存储能力在技术上大致每
40个月就翻一番;
a
s
of
201
2,
ev
e
ry
d
a
y
2
.
5
qu
inti
l
li
o
n (2
.
5×1
0
18)
b
yt
e
s
o
f
d
a
t
a
wer
e
cr
e
at
e
d.[16
]截至到
2012
年
,
每天产生的数据为
2.5
quintilli
o
n
(
2.5*10^1
8
)
字节。
Bi
g
da
t
a
is
di
f
ficu
l
t
to
work
wi
t
h
<
/p>
u
s
i
n
g
relat
i<
/p>
on
al
d
a
tabases
an
d
d<
/p>
e
s
ktop
s
tati
stics
a
nd vi
su
al
i
za
tion
p
a
ckages,
re
qui
ring
instea
d
s
s
ively
pa
ra
ll
el
so
f
tw
a
re
running
on
tens,
< br>h
und
r
eds,
or
eve
n
thousand
s
of servers
".
[1
7
] What is
con
s
idered
"b
ig data
va
r
ie
s
depen
d
ing
o
n
th
e
c
a
p
abi
lities
of
t
he o
r
g
a
niz
a
tion ma
n
aging the set, and
on
t
h
e
c
apabi
l
it
i
es of
t
h
e
a
p
plic
a
ti
o
ns that ar
e
tr<
/p>
a
dit
i
on
al
l
y
us
ed to process
a
nd
ana
lyze
t
h
e
d
ata
s
et in
i
ts
dom
ain
.
o
me orga
n
< br>iz
ati
ons,
fac
i
n
g
hu
n
d
r<
/p>
eds of
g
i
g
a
bytes of
d
a
t
a
for the fir
s
t
t
i
me
may
t
rigger
a
n
e
p>
e
d
t
o
reco
n
sider
d
at
a ma
n
ag
em
ent
opt
ions.
F
o
r
other
s,
i
t
m
a
y
ta
k
e
te
n
s
or hu
ndr
e
< br>d
s
o
f terab
y
< br>t
e
s
be
fore
d
a
ta
si
z
e
b
e
comes a
s
i
gnif
ic
ant consi
d
er
a
tion.
[
18]
使用关系型数据库和桌面统计和可视化软件包对大数据进行处理是困难的
,
它需要“将大规
模并行软件运行在数十台、数百台或甚至数千台
服务器
(
来处理)
”
< br>。什么是“大数据”取决
于企业管理数据集的能力、以及在其领域内使用传统方式
对数据集的处理和分析能力。
“对
某些企业来说,在第一次面对
处理上百G字节的数据时就要重新考虑数据管理的选择
,
而对<
/p>
其他的企业来说,处理数百
TB
字节的数
据量不成问题。
D
e
fi
n
iti
o
n
Big
data
usua
l
ly
i
ncludes
data
set
s
with
si
zes
b
ey
o
n
d
the
a
b
il
it
y
o
f
co<
/p>
mm
o
n
ly-
us
e
d
s
of
t
wa
re
to
ols
to
c
a<
/p>
p
t
ure,
cu
r
at
e
,
ma
nage
,
and
pro
ce
ss
th
e
dat
a
w
i
th
i
n
a
to
le
rable
el
a
psed
t
i
me.
B
i
g
data
s
izes
a
re
a
c
onst
an
tl
y
moving
t
arget
,
as
of
201
2
r
a
n
g
ing
from
a
f
e
w
p>
d
o
z
e
n
terabyt
e
s
to
m
any
p
etab
yt
es of
data in
a
s
ingle
d
at
a
s
e
t.
Wi
t
h
t
his diffic
u
l
t
y,
a
new
p
l
a
tf
o
rm
o
f
d
at
p>
a
"
tool
s
has
a
r
is
en
to
h
an
dle
s
ensemak
i
ng
ov
e
r
large
q
uantities
of
data, as in
t
he
A
p
ache
Ha
doop
B
ig Data
Platfo
r
m.
大数据通常包括在尺寸上超出常用软件工具对数据在一定的可容忍时间间隔内进行采集、
管
理和处理的能力的数据集。
大数据的尺寸是一个不断
变化的目标
,
截至到
2012
年在一个单一
数据集中的数据范围从十数
TB<
/p>
到数个P
B
。由于这种困难性
,
出现了新的“大数据“平台工
具来在大量的数据
中处理合理的数据
,
例如Ap
a
c
h
e
Ha
d
o
o
p
大数据平台。
MIKE
2
.0,
a
n
o
pen approach
t
o
Inform
a
tion
Ma
n
agement,
de
fine
s big data in
te
r
ms
of
u
s
e
f
ul
per
m
u
t
ati
o
ns
,
com
p
le
x
ity
,
an
d
d
i
fficulty
to
de
lete
i
nd
i
vid
ua
l
r
ec
o
rds
.
MIKE2.
0,一个开放的信息管理方式,从有用的排
列、复杂性和难以删除单一记录几个方面
定义了大数据。
In
a
2001
rese
arch
repo
rt[
19
]
and
r
elated
lec
t
ur
e
s,
M
ETA
Group
(no
w
G
a
rtn
e
r
)
a
n
a<
/p>
l
ys
t
D
oug
L
a
ney d
e
fine
d
d
at
a
g
r
owth c
ha
lle
ng
es
a
n
d o
p
po
r
tuni
t
ies as b
e
in
g
t
h
r
e
p>
e-
di
m
en<
/p>
si
o
na
l<
/p>
,
i.
e.
i
nc
re
a
sin
g
v
olu
m
e
(am
o
unt
o
f
data)
,
v
e
loci
t
y
(
s
p
e
ed
o
f
d
p>
a
t
a
in
and
out)
,
and
vari
et
y
(
rang
e
of
d
ata
t
ypes
and
source
s
).
G
a
r
t
n
er
,
a
n
d
now
much
of
t
he
indu
s
t
r
y,
conti
n
ue
t
o
u
s
e this
e
l
f
o
r
descr
i
bing
b
ig
d
a
ta.
[
20] In
2
01
2,
Gartne
r
up
d
ated
its
de
f
i
n
ition
as
fol
l
ows
:
D
at
a
a
r
e
high-volu
m
e,
h
i
gh-
veloc
i
ty,
a
nd
/
o
r
h
igh
-
v
ariety in
f
o
r
mati
o
n
a
s
s
e
t
s that
re
quire
n
e
w
forms
o
f
p
p>
r
oc
e
ssin
g
t
o
<
/p>
en
a
b
l
p>
e
e
nhanc
ed
d
ecision
< br>m
aki
n
g,
in
si
gh
t
di
s
cover
p>
y
and
pr
o
cess
o
< br>ptim
i
z
a
tio
n
.
[
21]
在
2
0
01
年的研究报告和相关文献中
,
< br>M
ETA Grou
p(现在的
Gart
n
e
r
)
的分析师
Doug
L
a
ne
y将数据增长的挑
战和机遇定义成三维方式
,
即总量
(<
/p>
数据量
)
、速度
(
数据进出(变化)的
速度
)
和多样性
(
数据类型和数据源的范围)
。
Gartne
r和目前业界大多数
(
人
)
延续使用这种
p>
“
3
V“模型来描述大数据。在
2
0
12
年,
Gartner
更新了其对大数据的定义
:
”大数据是具备大
数据量、高变化速度和/或高度多样新的信息资产<
/p>
,
这些信息资产需要新型的处理方式来强
化决策制定、洞察发现和处理优化。
Ex
a
m
p
le
s
Exam
ples
< br>in
c
lud
e
web
logs,
RFI
D,
s
e
nsor ne
< br>t
wor
k
s,
social
n
e
< br>t
w
or
ks,
social
d
ata
(
d
ue to the social
d
ata revol
ut
ion
)
,
I
n
ternet text and do
< br>c
ume
nt
s
,
Inte
r
ne
t
se
ar
c
h
i
n
d
exi
ng,
c
all
det
a
il
r
e
c
o
p>
rds,
astro
n
< br>omy,
atm
o
s
p
heric
sc
ienc
e,
genomic
s,
bio
ge
oc
h
emical,
biol
o
gi
c
al
,
a
n
d
o
ther
com
p
l
e
x
a
nd
ofte
n
inter
d
i
s
cip
l
i
na
< br>ry
s
c
ient
if
i
c
re
s
earch,
milita
ry
s
urv
eil
l
an
ce
,
med
i
cal r
e
c
or
ds, phot
o<
/p>
g
r
ap
h
p>
y
a
rchiv
es
,
vi
deo archives,
a
nd
l
a
rge
-
s
c
ale e
-c
o
m
< br>m
e
r
ce
.
例子包括网络日志、
R
F
p>
ID
、传感器网络、社交网络、社交数据
(
由于社交数据革命
)
、互联网
文本和文档、互联网搜索索引、呼叫详细记录(话单
-CD
R
)
、天文学、大气科学、基因学、
生物化学、
生物科学以及其他复杂和常常跨学科的科学研究、
< br>军事侦查、医疗记录、图片档
案、视频档案、和大规模电子商务。
Sc
i
< br>en
ce
and
r
e
s
earch
?
W
h
p>
e
n
t
h
e
Sloan
Digi
t
a
l
Sky
Surve
y
(
S
DSS)
b
e
gan
colle
ct
ing
a
s
tr
o
nom
ica
l
data
i
n
2
0
00,
it
amas
s
ed
mor
e
in
its
f
i
rs
t
fe
w
wee
k
s
th
a
n
a
ll
d
a
ta
colle
c
ted in the
hi
s
to
r
y
o
f a
s
tron
o
my. C
on
tinu
i
n
g
a
t
a
rate
o
f
ab
o
ut
2
0
0
G
B
pe
r
nigh
t
,
SDSS
has
amas
s
ed
mor
e
t
h
an 140
ter
a
bytes
o
f
i
p>
nf
o
rm
ati
o
n
.
When
t
h
e
L<
/p>
a
r
g
e
S
y
n
opt
i
c
Su
r
ve
y
T
elesco
p
e<
/p>
, su
c
c
e
s
s
or
to SDS
S,
< br>c
o
m
es
on
l
i
ne
in
2
01
6
i
t is a
n
tici
p
ate
d
t
o
acqui
re
that
a
m
o
u
n
t
of
dat
a
every
f
iv
e
d
a
y
s.
[
5
]
在
Sl
o
an
D
i
gital Sky
Sur
v
ey (
S
< br>DSS)
于2
00
0年开始采集
天文数据时,
在最初的几周内它积
累了比天文史上收集的所有数
据还要多的数据。现在他还以每夜大约
200
G
B
数据量的速率
增加。
SDS
S
已经累积了超过1
40TB
的信息。
一旦大型的天文望远镜
,SD
S
S
p>
的继任者
,
在2
0
1
6
年上线
,
预计它将每
5
天采集的数据量。
?
In
t
o
tal,
the
fo
u
r
main
det
ec
t
ors
at
the
Larg
e
H
a
dron
Collider
(
L
H
C)
produce
d
13 pe
t
aby
< br>t
es
o
f
da
t
a in
2
0
1
0
<
/p>
(1
3,
0
00
terab
y
t
e
s
)
.[22]
总的说来,四个
主要的大型强子碰撞机在
2010
年所产生的是数据达到1
p>
3PB
(
13
0<
/p>
00TB)
。
Decodi
n
g
th
e
hum
an
g
e
no
me
o
r
iginally
to
o
k
1
0
yea
r
s
t
o
proc
e
ss;
n
ow
i
t
ca
n
b
e
ach
i
eved
i
n one
week.
[5
]
解码人体基因原来
需要
10
年的时间
,
< br>现在它能在
1
周之内完成。
?
Com
p
u
t
at
i
o
nal
socia
l
s
c
ience
—
Tobias Preis
e
t
a
l
.
u
se
d
G
o
ogle
Tr
e
nds
d
at
a
t
o
d
em
ons
t
rate
th
at
Inter
n
et
u
sers
f
r
om c
o
untri
es
w
it
h
a
highe
r
pe
r
capi
t
a
gros
s
d
om
es
tic
< br>p
r
oduc
t
(
GD
P)
are
mo
re
likely
t
o
sear
c
h
f
o
r i
nfo
rma
t
ion
a
b
o
ut
the
f
u
tur
e
than inf
o
r
m
ati
o
n about the
pa
s
t
.
T
h
e
f
indings
sug
g
est
the
re
m
ay
b
e
a link
b
etween
onl
in
e
beha
vi
our and real
-
worl
d
econo
m
ic indi
cat
o
r
s
.
[
23][24
]<
/p>
[
25
]
T
h
e auth
o
r
s
o
f
t
he
study
e
x
amined
< br>G
o
og
l
e
q
uerie
s
logs
m
a
d
e
< br>
by
In
< br>t
er
n
et
u
s
ers
in
45
d
i
f
fe
r
en
t
co
unt
r
i
e
s
i
n
2
01
0
a
n
d
calc
ulate
d
t
he
ratio
of
the
v
o
l
u
me
o
f
search
< br>e
s
for
the
coming
year
(
‘2
0
1
1
’
)
to
t
he
volume of searches
f
o
r
th
e
p<
/p>
revi
ou
s year
(
‘2
0
0
9
’
)
,
w
hic
h
the
y
call the
‘f
u
tur
e
or
i
entation
ind
e
x’
.[26
]
T
h
ey
c
o
mpared
t
he
f
u
tu
re
orienta
-
-
-
-
-
-
-
-
-
上一篇:中华人民共和国监狱法 英文
下一篇:犯罪术语英语的词汇