-
洛杉
矶
一
项
非凡的
实验
正在
p>
进
行
In
Los Angeles, a remarkable experiment is under way.
面向
墙
要
不然
给
你戴上手
铐
Face the wall, face the wall before
I put you in handcuffs.
警方想在犯罪
发
生前便做出
预测
The police are trying to predict crime
before it even happens.
这
能
p>
让
我
们预
先知道<
/p>
It actually gives us a
forecast about
未来十二小
时
内最可能
发
生犯罪的区域
where crime is most likely to happen in
the next 12 hours.
在
伦
敦金融城
In the City of London,
一位科学家出身的商人
this
scientist-turned-trader
相信他找到了运用数学
believes he's found the secret of
赚
入万
贯钱财
的秘
诀
making millions,
with maths.
数据
应
用的
潜能无可限
♥
量
&he
arts;
The potential to do things with
data is fantastic,
无可限
&heart
s;
量
♥
fantastic.
在南非
And in South Africa,
这
位天文学家
this star-gazer
准
备
通
过
聆听每一
颗
恒星的信
♥
号
p>
♥♥
has set out
to catalogue the entire cosmos,
来
为
整个宇宙
编
制星表
by listening to every single
star.
将
这
些不同
领
域
联
♥<
/p>
系
♥
起来的
What unites these different
worlds
正是日益激增的数据
is an explosion in data.
数据量
非常
庞
大
而且在不断
变
化
The volume of it, the dynamic nature of
the data
它正在改
变
着我<
/p>
们
的生活方式
is changing how we live our lives.
总
咖啡
产
量
总
咖啡
产
量
总
咖啡
产
量
总
咖啡
产
量
全球
产
量百分比
巴西
越南
印度尼西
亚
哥
伦
比
亚
埃塞俄比
亚
过
去几年
间
In just the last few years,
我
们
所
创
造出
的数据
we've produced more data
已超
过
人
类历
史中的数据
总
量
than in all of human history.
美分每磅
美分每磅
美分每磅
世界咖啡价格
科
纳
咖
啡
阿
拉
比
卡
咖
啡
罗
布
斯
塔
咖
啡
本片中
我
们
将跟随
这
些数据挖掘者
In this film, we follow the
people who are mining this data.
数据即将成<
/p>
为
21
世
纪
p>
最
强
大的
It's set to become one of the greatest
sources of power
南十字座
α
南十字座
β
南十字座
δ
南十字座
γ
一种力量
in the 21st
century.
地平
线
大数据
时
代
清晨六点
6am,
洛杉
矶
Los Angeles.
福德希
尔
警局的
轮
班开始了
The start of shift in the Foothill
division.
在洛城警局
Officer Steve Nunes,
已有
12
年警
龄
的史蒂夫
p>
·
努涅斯警
员
a 12-year-veteran of the LAPD,
< br>和他的搭档丹尼
·
弗雷
泽
出
发
去巡
逻
and his partner Danny Fraser
head out to patrol.
我
们
位
处
洛杉
矶
市中心以北
Right now, we're
north of Los Angeles,
圣
费尔
南多谷地区
downtown Los
Angeles, in the San Fernando Valley area.
< br>他
们
的
辖
区是洛城治安最差的街区之一
Their beat is
one of LA's toughest neighbourhoods.
这<
/p>
个区有
许
多
飞车
党
即
飞车抢
劫
There's a lot of BFMVs, burglary from
motor vehicles.
很多
抢
劫案
There's a lot of robberies,
还
有很多帮派和
贩
毒活
动
there's a lot of gang
and narcotic activity over here.
有很多人
p>
贩卖
♥♥
毒
品
There's a lot of people
selling drugs.
这
个地区的黑帮叫
男孩帮
The gang
that's in this area are called the Project Boys.
是个西班牙裔帮派
They're
a Hispanic gang.
尽管他
们经验
丰富
Despite their
experience
对
街区也非常熟悉
and intimate knowledge of the
neighbourhood,
他
们
今天的巡
逻
today,
their patrol
却由一个
计
算机算法控制
is being controlled
by a computer algorithm.
我其
实
不是很高
兴
You know, I wasn't really too happy
about it,
我是名警
♥
察
♥
you know,
specially as a police officer
我
< br>们
所有的
训练
就是
为
了干
这
一行
you know, we kind of
go off of what we know from our training.
< br>我
们
其
实
不太高
兴
让
一部
计
算机
We weren't too happy about a computer
telling us
告
诉
我
们
去哪里
执
勤
where we need to do our police
work
要开往哪片地区
and
what area we need to drive around.
史蒂夫和
丹尼正在参与一
场
开
创
性的
实验
Steve
and Danny are part of a ground-breaking trial.
运用一个方程
An
equation is being used
来
预测
p>
他
们执
勤期
间
p>
哪里会
发
生犯罪
to predict where crime will occur on
their watch.
我看到有人在洗衣店前游
荡
I saw some people hanging out by the
laundry,
那
间
小洗衣店
like the little laundry.
看到路口了
I can see
the corner.
在
这
停
p>
车
吧
All
right, let's stop.
如果
预测
准确
If its predictions are correct,
这
套系
统
将在洛城全面推行<
/p>
the system will be rolled
out across all LA.
-
站住
别动
-
站住
- Hey, stop,
yeah, stop. - Stop.
双手抱
头
Put your hands on your head.
这
套
计
算机算法
And the computer algorithm
将成
为
史蒂夫日常工作的一部分
will become a routine part of Steve's
working life.
双腿
张
开
向前看
Spread your
feet, face forward.
-
身上有
东
西
吗
-
别动
- Have
anything on you? - Stop moving.
面向
墙
要
不然
给
你戴上手
铐
Face the wall, face the wall before
I put you in handcuffs.
你也是
<
/p>
男孩帮
的人
吗<
/p>
You a Project Boy too or no?
预测
犯罪的雄心
The ambition to predict crime
诞
生于一次非同
寻
常的合作
was born out of a remarkable
collaboration
合作方是洛杉
矶
警局
between the LAPD...
以及加州大学
and the
University of California.
杰夫
·
布
兰
丁
汉<
/p>
姆也
许
Jeff Brantingham might seem
不像一名打
击
犯罪的斗士
an unlikely crime fighter.
作
为
人
类
学教授
A professor of
anthropology,
他是研究中国偏
远
地区狩
猎
部落的
专
家
he is an expert on
remote hunter-gatherer tribes in China,
但是他相信
but he's
convinced
从中国偏
远
地区
到黑帮聚集地洛城
that from remote
China to gangland LA,
所有人
类
p>
行
为远
比你想象的
all human behaviour is far more
predictable
更容易
预测
than you might like to believe.
我
们
都以
为
< br>能控制自己的行
为
We
all like to think that we are in control of
everything,
但
实际
上我
们
的行
为
都<
/p>
规
律可循
but in fact all of our behaviour is
very regular,
杰夫
·
布
兰
丁
汉
姆教
授
加利福尼
亚
大学洛杉
矶
分校
模式很固定
这
往往
让
我
们
惊
讶
very
patterned in ways that is often frightening to us.
不法之徒也一
样
Offenders are no different.
他
们
也不断重复地做着相同的事
They do exactly the same things over
and over and over again,
他
们<
/p>
的犯罪模式
and their
criminal offending patterns
也会从他
们
有
规
律的行
为
中
显现
出来
emerge right out of that
regularity of their behaviour.
杰夫
认为
Jeff believed
他能在洛杉
矶
警局八十年多年来
he
could find repeating patterns of criminal
behaviour
一千三百万宗犯罪
记录
< br>中
in the LAPD's vast
dataset -
发现
重复的犯罪行
为
模式
13 million
crimes recorded over 80 years.
洛杉
矶
警局
拥
有大量数据
The LAPD have droves and
droves of data
记录
着犯罪
< br>发
生的
时间
和地点
about where and when crimes have
been occurring.
它包含了
许
多有挖掘价
值
的信息
It represents a treasure trove of
potential information
能
让
我
们
了解犯罪的本
质<
/p>
for understanding the nature
of crime.
洛城警局已开始利用犯罪数据
The LAPD already use their crime data <
/p>
分
♥
析
< br>♥
出犯罪高
发
地
点
to identify hotspots of
crime,
但
这
只能
说
明某
处
曾
经发
生犯罪
but
that only tells them where crime has already
struck.
我
们
已
经
掌握如何分
♥
析
♥
地
图
上的
标记
We've
gotten very good at looking at dots on a map,
肖恩
·
马
林
诺
斯基警
长
洛杉
矶
警
&hearts
;
察
♥
局
知道哪里
发
生
过
犯罪
and
where, where crime has occurred
然而
问题
在于
and the problem with that is
有
时
你会先入
为
主
that, sometimes, you're
making an assumption
今天和昨天的情况一
样
that today is the same as yesterday.
p>
杰夫
·
布
兰
丁
汉
姆打算
尝试
p>
一个更大胆
Jeff
Brantingham planned to do something more radical
更有效的方式
and more
useful
那就是
预测
未来
predict the future.
他相信可以利用犯罪数据中的模式
He believed he could use patterns in
the crime data
预测
可能
发
生犯罪的
时间
与地点
to predict where and when crime
was likely to occur.
我
们
一直通
过
大自然中的
规<
/p>
律作出
预测
We've long used the patterns in nature
to make predictions.
通
过
日落西沉
From the setting sun,
我
们
了解到新的一天何
时
到
来
we learned when to expect
the new day.
月亮阴晴
圆
缺
The phases of the moon allowed us
让
我
们
能
预测
潮起潮落
to
forecast the ebb and flow of the tides.
通
过观
察恒星的位置
And from observing the patterns of the
stars,
我
们
精通了
导
航技
术
we mastered the art of navigation.
然而杰夫
·
布
兰
丁
汉
姆有更大的野心
But Jeff Brantingham wanted to do
something far more ambitious.
他想从
纷杂
的人
类
行
为
中
He wanted
to tease out patterns
找出其中的固定模式
in the
apparent chaos of human behaviour,
从洛城警
局
庞
大的
1300
万条犯罪
记录
中
to uncover them in the LAPD's vast
dataset
找到犯罪的
规
律
p>
of 13 million past crimes.
p>
你也
许对
哪里
发<
/p>
生犯罪有直
觉
但
说
到底
You can have gut feelings about the
crime, but ultimately,
你
还
是得考
虑
运用数学模型
you need to think about working in a
mathematical framework.
因
为
p>
数学能
让
你通
过<
/p>
数据
Because
mathematics gives you the ability to
明白
事件的起因和演
变过
程
understand exactly why things are
happening within the data
这
是
直
觉
无法做到的
in a way that gut feelings do not.
杰夫需要一位探究模式的
专
家
< br>
Jeff needed an expert in pattern
detection.
波
长
密度
振幅
速度
时间
压强
频
率
黏性系数
他找到了同事
He turned
to his colleague,
加州大学洛杉
矶
分校的数学家
乔
治
·
莫勒
UCLA
mathematician George Mohler.
作
为
数学家
As mathematicians,
我
< br>们
想了解自己周
围
的事物
we're interested in
understanding what's around you
乔
治
·
莫勒教授
圣塔克拉拉大学
就比如
so, you know,
往水里扔石子
形成的波浪怎
样传
播
how
do waves propagate if you throw a pebble into the
water?
森林里的
树
木又是如何
分布
The distribution of trees
in a forest.
数学模型
So mathematical models
可以帮你了解
这类问题
can help you understand those types of
things.
乔
治能通
过
数学工具
George could use
mathematical tools
了解
隐
藏在犯罪数据里的
东
西
to see what was hidden in the crime
data.
其中似乎有些
规
律
And there were hints of a
pattern in it.
犯罪
发
生之后
What you see is that after a crime
occurs,
风险
增加了
there's an elevated risk
并且<
/p>
扩
散到
邻
近区域
and that risk travels to
neighbouring regions.
我
们
想做的是
So what we wanted to do
建立一个
模型将
这
点考
虑进
去
is develop a model to
take that into account
警方就可以利用
这
一信息
so police
could maybe use that information
防止犯罪
发
生
to prevent those crimes from occurring.
在美国西海岸
一套数学模型已
p>
经
广泛
应
用
He started with a mathematical
model that was already being used,
这
便是他的着手点
right here on the west coast of
America.
南加州地震
频发
Southern California is earthquake
country.
地
处
圣安德烈
p>
亚
斯断
层
Sitting on the San Andreas Fault,
这
里平均每年有一万次地震和余震
there's an average of 10,000
earthquakes and after-shocks every year.
1989
年的洛
马
·
普里埃塔地震
The biggest for
100 years was the Loma Prieta earthquake
洛
马
·
普里埃塔地震
震中
是百年之最
of 1989.
震中就在
这
Its epicentre was here,
离加州圣
塔克
鲁兹
不
远
just outside Santa Cruz, California.
显
然没有任何数学模型
There is quite simply no mathematical
model
能
预测
如此
剧
烈的地震
that
can predict an earthquake like this one.
但地震
过
后
还
有余震
But after the
earthquake come the after-shocks
这
就另当
别论
了
and that's a different matter.
< br>我
们现
在距离震中数百米
远
p>
So we're several hundred
metres from the epicentre.
附近便是洛
马
·
普里埃塔地震
Nearby was one of the after-shocks
一次余震
发
生的地点
of the original Loma Prieta earthquake.
大地震
发
生后
After a large earthquake occurs,
很可能会有另一次地震
紧
接着
there is a probability that another
earthquake will follow
在附近
发
生
nearby in space and time.
乔
治
发现
地震学家已找到了
George
discovered seismologists had found a pattern
地震余震的
规
律
to earthquake after-shocks
并研究出一套算法
and
developed an algorithm
来
预测
p>
余震集群的位置
to predict
these after-shock clusters.
这
种集群模式在犯罪数据中也很常
见
These types of clustering patterns are
also seen in crime data.
犯罪
发
生后
So, after a crime occurs,
你会
发现
不久之后在
邻
近地点
you will see an increased likelihood
发
生新案件的可能性增加了
of future events nearby in space and
time.
可以把它
们
想象成犯罪的
余震
You
can think of them as after-shocks of crime.
乔
治和杰夫
George and Jeff
将
预测
余震的方程
took the
equation for predicting earthquake after-shocks
p>
修改成了
预测
犯罪的模型
< br>
and began to adapt it to predict
crime.
模型分
为
几个部分
p>
So the model is broken into
several parts,
犯罪的
发
生率
我
们
称之
为<
/p>
λ
so the overall
rate of crime, which we'll call Lamda,
模
拟
了特定
时
空内犯罪的
发
生率
models the rate of events in space and
time.
我
们
用希腊字母
μ
We use the Greek
letter Myu
代表正
发
生的
犯罪事件的背景
值
to
represent the background amount of crime that's
going on.
λ
的第二个因子是
G
The second component to Lamda is G.
G
模
拟
一件犯罪事件
后
其他犯罪的分布情况
G models the distribution of crimes
following an initial event.
整个式子描述了一种自激
的
现
象
This whole term overall describes what
we call self-excitation,
即指今天
发
生的犯罪事件
that a
crime that occurs today
实际
上激
发
了未来犯罪的可能
actually self-excites the possibility
of future crimes.
所以
λ
等于
μ
加上
G
对吗
So Lamda
equals Myu plus G, is that right?
可以
这
么
说
λ
等于
μ
加上
G
Well, sort of, so Lamda equals
Myu plus G
是以数据
库
中
已有的犯罪
记录为
基
础
positioned at all the past events
in your dataset.
乔
治和杰夫将在洛杉
p>
矶
街
头测试
此算法
George and Jeff took their
algorithm back to the streets of LA.
当他
们
将
历
史犯罪
数据
导
入方程中
When they plugged the old crime data
into the equation,
得到的
预测
it generated predictions
符合已有的犯罪数据
that
fitted what had happened in the past.
但
它是否真能
预测
未来呢
But could it also predict the future? <
/p>
他
们
开始提供每日犯罪
< br>预
告
They began
to produce daily crime forecasts,
标
出将有可能
identifying hotspots
发
生犯罪的高危点
where crime was likely to strike in the
future.
-
亚
当十一区
归
努尼斯
-
收到
- Adam 11,
Nunes. -Sir
-
和特恩
-
收到
- Thern. -
Sir.
-
亚
当二十三区
归
福勒
-
收到
- Adam 23,
Fowler. - Sir.
-
和瓦力
尔
-
收到
- Wallier. -
Sir.
请
你
们
打开任
务
地
图
Let's go to the mission maps if you
would, please.
今天
洛杉
矶
警
♥
察
♥
局将
测试这
些
预测
Today, the LAPD is putting these
predictions to the test.
福德希
尔
的警
♥
察
♥
们
The cops in Foothill
均被分配了
p>
约
46
平
&hea
rts;
米
♥
大小的区
域
are assigned boxes of just
500 square feet
算法
预测
< br>未来
12
小
时
< br>内
那些区域中
where the algorithm predicts crime is
most likely to occur
很可能有犯罪
发
生
in their
12-hour watch.
今天的
预测
< br>任
务
包括
Right, predictive mission for today is,
在
亚
当十一区内的十五个小区域
we've got 15 boxes here to
address,
加
强
巡
逻
in Adam 11's area, <
/p>
福德希
尔
大街
1
2260
号
♥
12260 Foothill Boulevard.
他<
/p>
们
将尽可能
频
繁
地巡
视这
些区域
They're instructed to hit their boxes
as often as they can.
奥斯本和福德希
尔
大街
Osborne and
Foothill Boulevard.
都了解今天的任
务
了
吗
So
you've got your mission for the day?
现
在出
发
注意安全
So let's go
out there, have fun and be safe.
那儿有个凶<
/p>
杀
案提示在
闪烁
Yeah, there is a homicide blinking up
there.
这
次
测试
由坐落于洛杉
矶
市中心的
The trial is monitored at the Real Time
Crime Centre
实时
犯罪
监
控中心
监测
in downtown LA.
我
们现
在看到的就是
What
we're looking at here
预
警
软
件的
预测结
果
is the
forecast that was produced by the PredPol
software.
在
这
幅
预测
地
图
的中
♥
央
♥
So if you see on the centre of this
map,
有三个几乎相
连
的
we've got three nearly
contiguous
高危区域
forecast boxes around this area,
和一个
临
近区域
and then an adjacent one.
这对
警
员们
来
说<
/p>
是个重要情
报
So this is good information for the
officers.
他
们
可以沿着<
/p>
谢尔顿
路和周
围
一些小路
They can go out there,
work up and down that street, Sheldon,
仔
细
地来回巡
视
and some of those side streets,
搜
寻
犯罪活
动
and look for criminal activity
or evidence
或是犯罪
倾
向的迹象
that criminal activity
might be afoot.
收到
< br>我
们
会
处
理
OK, Roger, we'll take it.
史蒂夫和丹尼
获
命行
< br>动
Steve and Danny have
got the word to go.
模型
预测
到他
们
的巡区内
The model has predicted car crime
会
发
生盗
车
案件
in a box on their
beat.
你猜到怎么回事了吧
You know what the call is right?
五起案子都是破窗而入
The
five incidents were macerated.
似乎是一个小孩
Looks
like it's a kid.
就是我
们
昨天抓到那个小孩的地方
Yeah, it's
the same address as that kid that we had
yesterday.
四个疑犯
男性
...
Suspects
four, male...
当他
们
到达指定高危点
时
When
they reach their assigned hotspot,
发现
p>
了一
辆
套
&hea
rts;
牌
♥
车
♥
they find a cold-
plated car.
牌照与
车辆
不符
The licence plates don't
match the vehicle.
他
们
要什么就
偷
什么啊
They're getting what they need, huh?
经查证
When they
call the number in,
这
是
辆
被盗的
车
it turns out the car's been stolen.
这
个地区
经
常上演<
/p>
侠盗
猎车
手
p>
It was an area where there's a
lot of GTAs,
很多
猎车
手
偷车
大盗<
/p>
which is
我
们
一出
动
Right out of roll call,
巡
逻
来到
预测
的高危区
时
right when we
got down one of the boxes they went into,
< br>很快就
发现
一
辆
可疑
车辆
one of
the areas they started patrolling,
查证
p>
后
发现
是被盗
车辆
right away they ran a car
and it came back stolen.
在福德希
尔
这
一算法促使
In Foothill, they found using the
algorithm
财产
犯罪下降了
12%
led to a 12% decrease in property crime
入室行窃下降了
26%
and a
26% decrease in burglary.
起初我
们
不是很看好它
At first
I said we weren't big on it, you know,
但是随后
渐渐
地开始注意到
and it came to the point where, little
by little,
某些地方的犯罪率的确下降了
you start to see crime in certain areas
deteriorate
只因
为
我<
/p>
们
在那里巡
逻
了
because of us being in that
box for, you know,
十或二十分
钟
甚至只是五分
钟
even ten minutes, twenty minutes, even
five minutes.
我
们
确
实
感
觉
到卓有
成效
So, we definitely see how
it is working.
该
模型持
续
更新
加入新的犯罪数据
The
model is continuously updated with new crime data,
以求达到更加精准的
预测
效果
helping to make the predictions
ever more accurate.
自今年一月以来
This whole year since January,
< br>福德希
尔
地区已在洛杉
矶
市
Foothill area has
been leading the city of Los Angeles
犯罪率下降的排行中称霸多周了
in
crime reduction, week to week.
一旦
证实
了
软
件的作用之后
p>
So the officers, once it
started working,
警局很快就入股了我
们<
/p>
公
♥
司
< br>♥
then we had buy-in from
them
而
现
在它已成
为
了日常巡
逻
的一部分了<
/p>
and now it's just a regular
course of how they do business.
预
警系
统
Predictive policing will be
将会在整个洛杉
矶
市启用
rolled out right across the city of Los
Angeles,
并在美国超
过
15
0
个城市
进
行
测试
and is being trialled in
over 150 cities across America.
通
过历
史犯罪数据
预测
犯罪活
动
And predicting
crime from crime data
仅
是数据挖掘
如何改
变
世界的一个例子
is just one way the data miners are
changing our world.
杰夫用于分
&he
arts;
析
♥
洛杉<
/p>
矶
警局数据的工具
In fact, the tools that Jeff used to
mine the LAPD data
天蝎座
尾宿八
尾宿五
尾宿一
心宿一
键闭
房
♥
宿三
房
♥
宿一
实际
上可用于任何数据
组
can be applied to any
data set.
浩淼繁复的宇宙
The vast complexity of the universe...
心宿二
数据
距地球
:
550
光年
170
秒差距
星等
-5.28
绝对
星等
视
向速度
-3.4
千米每秒
复
杂
多
变
的人
< br>类
行
为
the diversity of human behaviour...
世界咖啡价格
美分每磅
美分每磅
美分每磅
科
纳
咖
啡
阿
拉
比
卡
咖
啡
罗
布
斯
塔
咖
啡
甚至是我
们
每天自己所
创
造的数据
...even the data we create
ourselves every day.
数据挖掘者
们<
/p>
影响着我
们
生活的方方面面
The data miners are reaching into
every area of our lives,
从医
疗业
到广
♥
告
&heart
s;
业
from medicine
to advertising,
到高
级
金融界
to the world of high finance.
菲
尔
·
比
尔
斯教授是一名
Professor
Phil Beales is a geneticist
身
处
数据革命前沿的
遗传
学家
at the forefront of this data
revolution.
他今天所用的方法
The methods he uses today
可以追溯到一位于三百年前
can
be traced back to an extraordinary man
居住在
伦
敦的非凡人物
living in London 300 years ago.
第一位数据挖掘者
业
余科学家
The first data miner, the amateur
scientist,
约
翰
·
格
兰
特
John Graunt.
格
兰
p>
特生活的年代
人
类
正面
临
最
艰难
生存考
验
Graunt was living through the greatest
health threat of his day,
即黑死病
the bubonic
plague.
瘟疫的起因至今仍是个迷
Its causes were an utter mystery.
格
兰
特开始在教区的死亡
记录
中搜
寻线
索
Graunt began searching for patterns
in the parish death records,
也就是死亡
统计
表
known
as the Bills of Mortality.
死亡
统计
表
The Bills of Mortality
基本上就是
随机的一
组组
信息
were essentially random sets of
information
菲利浦
·
比
尔
斯教授
伦
敦大学学院儿童健康研究所
而他将其
归纳
整理
which he brought together and organised
并在其中找到了
规
律
< br>
and made sense of that information.
格
兰
特意
识<
/p>
到
这
些信息
So Graunt realised that this
information
简
直就是个大宝藏
was essentially a gold mine.
格
兰
特想知道
谁
是死于瘟疫
Graunt wanted to
know who had died of the plague
而
谁
又是死于其他原因
and who had died of something else.
他将所有的死亡
记录汇编
在一起
He compiled all the death records
together.
而
这
些
统计
数据
让
他
发现
了
And
this dataset allowed him to see patterns
别
人没
发现
的
规
律
that no-one
else had seen.
自然与政
♥<
/p>
治
♥
性
< br>观查
伦
敦市民
约
翰
·
格
< br>兰
特著
他列出了一系列的死亡原因
He
listed a number of the causes of death
并将其
归类
整理
and categorised them in such a way
即便我
们现
在回
过头查
找
that one can
now look back
都能知道当
时
< br>人
们
的死因
and see exactly what people died of.
1632
年的病故及意外死亡
比如
38
人死于瘰
疬
For example 38 people had
King's Evil,
实际
上就是
颈
部
结
核病
which is actually tuberculosis of the
neck
或叫做淋巴
结
核病
or otherwise called scrofula. <
/p>
一人因被
疯
狗咬
伤
死亡
One patient
was bit with a mad dog,
另有
12
人死于法国花柳病
即梅毒
another 12
had French Pox, which is actually syphilis.
而在瘟疫受害者的数据中
And
in the plague deaths,
格
兰
特
发现
了
隐
藏的
规
律
Graunt found a revealing pattern.
这
一
发现颠
覆了当
时
人
们
It overturned an idea that everyone
shared at the time
注
年份下面一行数字代表当年死于瘟疫的人数
< br>对
于疫病起因的
观
念
about what caused the disease. <
/p>
他用数据反
驳
了
He was able to refute
一个当
时
公
认
的看法
the widely-held belief that
plague
即瘟疫是由人与人接触而
传
播
might have been caused
by person-to-person contact,
他同
< br>时
也反
驳
了
and he was also able to refute the
widely-held belief
另一个当
时
被公
认
的
说
法
at that time that
plague tended to increase
新国王登基之年常出
现
瘟疫
during
the first year of the reign of a new king.
格
兰
特
对
数据研究得越多
And the more
Graunt looked at the data,
就
发现
了越多
隐
藏的
规
律
the more
hidden patterns he discovered.
人
们
开始从全新的角度
观
察
p>
伦
敦城
People started to see the city of
London in an entirely new way.
他是首个估算出<
/p>
伦
敦人口的人
He was the first to estimate its
population.
他
证
明了男
婴
的出生率要高于女
婴
He proved more boys were born than
girls,
但更高的男性死亡率
but that higher male mortality
< br>很快又使性
别
比例恢复了平衡
meant the population was soon evenly
balanced.
他告
诉
世人可以
通
过
挖掘数据
He showed that surprising and rather
useful ideas
得到惊人而
实
用的想法
could be mined from
data,
只要你用
对
了方法
if you knew how to examine it.
他
彻
底改
变<
/p>
了人
们对
于信息的
观
念
This was a
completely new way of looking at the information
并革新了提取有用数据的方法
and
from extracting really useful data,
墓葬与洗礼列表
格
< br>兰
特算得上是此
领
域的先
驱
者
so
Graunt was essentially a pioneer.
格
兰
特是
统计
学和流行病
学的奠基人
Graunt was the
founding father of statistics and epidemiology,
伦
敦市男女分布列表
乡镇
教区列表
流行病学主要研究疾病的
规
律
the study of the patterns, causes
起因与影响
and effects
of disease.
而
这
些数据
And it's this same power of data
对
于
现
代医学也有极其重要
的价
值
that has
become fantastically valuable in modern medicine.
如今
菲
尔
·
比
尔
斯教授
Today, Professor Phil
Beales
要挖掘新的人
类
数据<
/p>
组
is mining a new
human dataset,
就是构成人
类
基因
图谱
的
the three billion bits of genetic
information
三十
亿
个基
因位点信息
that make up the human
genome.
他在我
们
的
DNA
中
He's
searching our DNA
寻
找有助于
诊
断并治
疗
疾病的
线
索
for
clues to help him diagnose and treat illness.
让
我来看看你
Let me just take a quick look at you. <
/p>
杰克
·
皮克特是他的一位病人
Jake Pickett is one of his
patients.
杰克出生
时
When... when Jake was born,
没有什么皮
赘
多余的脚趾
there were
no extra skin tags or extra toes
或手指什么的
吗
or fingers or anything like that?
手臂上有个皮
赘
I had a skin tag on my arm.
十四年以来
For 14
years,
杰克
饱
受异常症状的困
扰
Jake has lived
with an unusual range of symptoms,
包括学
习
障碍
including learning difficulties,
肥胖症
还
有
视
力不佳
obesity, and poor eyesight.
这边
打
过
耳洞
吗
You had an earring in
there?
-
是的
-
好的
不是生来就有的
- Yeah. -
Oh, OK, you weren't born with that!
他的不明病症
His
unidentified condition
令父母和医生
们
感到困惑
has
baffled his parents and doctors.
这
几年我
们
做了很多
检查<
/p>
We've had a lot of tests
over the years,
其
实
当<
/p>
时
的儿科医生
对
我
说
and actually,
my paediatrician of the time had said to me,
这
么一个快
乐
可
爱
的男孩
为
什么你
总<
/p>
想
让
他遭受扎
针
之苦
让
p>
我有点害怕
继续
求医
and it made me a bit frightened to
keep asking for help,
因
为
我
觉
得
because then I thought
也
许
医生
们
会
认为
是我有
问题
maybe the medics would think there's
something wrong with me.
但在杰克出生后的十几年中
But
in the course of Jake's lifetime,
医学有了
进
展
medicine has changed.
如今
比
尔
斯教授握有一
门
技
术
Professor Beales now has
the tools
也
许
能帮杰克和
他家人解开
谜团
that may
help Jake and his family unravel this mystery.
因
为
他
们
知道
这对
他来
说
很困
难
Because they know it's difficult for
him.
我
们
会从今天的血
检
中
As part
of the blood test today,
拿出一部分血
样
we will take some of that
从血液中提取
DNA
and
from that blood take the DNA, extract the DNA,
用于做基因
测试
and then we will do the genetic testing
on those.
-
你
们对
此没意
见
吧
-
没意
见
-
Are you happy with that? - Yeah, yeah.
需要等数周才会有
结
果
It will take a few weeks.
对<
/p>
特殊病情来
说
So the key really is to try to nail
down the
关
键
在于想
办
法确
诊
如果可以的
话
diagnosis in this particular situation,
if we can.
太好了
OK, that's great.
这
只是消毒
This is just to clean it.
他将
在杰克的
DNA
中
He will search Jake's DNA,
寻
找任何微小的基因
变
异迹象
hunting for the tiny telltale
variations in his genes
那可能是病症的
< br>诱
因
that may
have caused his condition.
不要
动
Just hold still for me.
每位被分
♥
析
♥
过
的患者基因
Every patient whose genes are analysed
会被添加到日益增
长
的
DNA
数据
库
中
adds to the growing database of
DNA.
以此帮助医生
们
制定新的治
疗
方法
It
helps doctors devise new treatments
并确<
/p>
诊
以前
难
以理解
的症状
and identify previously
mysterious conditions.
很好
结
束了
Well done, it's all done. OK?
还
好
吗
OK?
也没那么疼嘛
It wasn't that bad.
过
去的十年里
Over the last ten years,
这项<
/p>
技
术
已成功揭露了
this technique has successfully
revealed
许
多疾病的基因根源
the genetic basis of many diseases.
这图显
示了覆盖范
围
We have plotted here the coverage
而且数
值
也很低
and then we have the low score.
也
许
是
这
个
Could be that one.
我
们
似乎找到了致病基因了
是
吗
OK, well it looks like we've got our
gene then, doesn't it?
-
希望如此
-
好的
- I hope so.
- OK.
能
够鉴别
出疾病
Being able to identify a
disease
常常是帮助患者的第一步
is often the first step in helping
patients.
对
于患者来
说
多年无法确
诊
So patients live with the uncertainty
of
他
们
生活在不确定性中
a lack of diagnosis for many,
many years
我
们
不能低估
and we can't underestimate the benefits
诊
断的好
处
和
重要性
and the importance of
having this diagnosis,
所以通
过这
类
的分子学
检测
so through molecular testing such as
this,
我
们
能
< br>为
患者做出
诊
断
we're able to provide those
patients
让
他
们
得到
with a certain
level of comfort
某种程度上的安慰
when it comes to a diagnosis,
某种意
义
上的了断
and, in a sense, closure,
好<
/p>
让
他
们
向生活的
下一章
节迈进
so they
can move on to the next chapter.
梳理出藏在人
类
数据
组
中的
规
律
Teasing out the patterns in the human
dataset
正在改
变
着整个医学
界
is transforming medicine.
数据逐
渐
成
为
一种
强
大的商品
Data is becoming a powerful
commodity.
一种通往科学
见
解
It's leading to
scientific insights
与理解人
类
行
为
的新途径
and new ways of understanding human
behaviour.
数据同
样
能令
人致富
And data can also make
you rich,
非常富有
very rich.
说
到通
过
数据
赚钱
When it comes to making money out of
data,
大
卫
·
< br>哈丁相当擅
长
此道
David Harding's rather good at it.
三十年前
30 years
ago,
他开始将数据分
♥
< br>析
♥
与算法
he set out to bring data analysis and
algorithms
带
入
伦
敦金融城的交易大
厅
to the trading floors of the City.
以前的交易都是
这样
的
This is how all trading used to be... <
/p>
所有交易都是在
这
种
All trading used to be done
< br>人山人海的大
厅
里完成
in rooms full of people like... like
this.
个个都在高喊
买
&hea
rts;♥
卖
♥&hearts
;
价格
They are
shouting the prices they will buy and sell at,
或是确
认
交易
they are agreeing the deals.
不断波
动
的价格
The rises and falls in the prices
就好像此起彼落的声音
are
almost like the rises and falls in the noise
level.
今天的
伦
敦金属交易所
Today, the London Metals
Exchange
是欧洲独一无二的交易
场
is the only trading pit of its kind in
Europe.
嘈
杂
激
动
而又混乱
Noisy,
emotional and chaotic.
对
于一名<
/p>
剑桥
大学
毕业
的
理科生来
说
To a
science graduate from Cambridge,
这
情景有些令人意外
it came as a bit of a surprise.
我
刚进
金融城
时
When I went into the City,
大
卫
·
哈丁
元盛
资产
管理
创
始人
我一直
觉
得那里是
银
行
I assumed because it was the
world of banking
和高
级
< br>金融的地
盘
and high
finance,
以
为
那种地方
p>
应该
会非常理性化
I assumed that it would all be very,
very rational
有效率
有
规则
有条理
and very
efficient and very disciplined and well-organised,
犹如我在
剑桥
大学
rather like the body of knowledge
p>
所学的物理和化学的
识
体系
I had been taught at Cambridge in
physics and chemistry.
应该
是有条理
有理
论
基
础
的
These bodies of knowledge
were organised and rational,
然而和我
预
想的截然不同
and
it wasn't at all like I expected.
那里其
p>
实
有点混乱
But that it was, you know, somewhat
chaotic, in a way.
那
时
的
买
♥♥
卖
♥♥
策略
Buying and selling strategy in
those days
基本就靠操
盘
手的本能和直
觉
tended to
be governed by instinct and intuition.
看着价格在行情牌上
I
watched the prices going up and down
上下浮
动
on the board up there.
我站在一旁
将数据手工
绘
成
图
表
I plotted graphs by hand, standing
at the edge
仔
细
看
p>
过图
表之后
and followed these graphs
我确信
and I became
convinced
价格的
涨
跌肯定
有一定
规
律
that there was a pattern to the rises
and falls in prices.
大
卫
·
哈丁想用数学
David Harding wanted to bring
mathematics
来解决
难题
to the problem.
他相信如果他有足
够
的数据
He
believed that if he had enough data,
就能
预测
出价格
规
律
赚
上一笔
he could predict patterns in the prices
and make money.
但当
时
的主流
观
点
But the prevailing wisdom
认为这
是不可能的事
was that this was an impossible task. <
/p>
根据金融界的
传统观
念
< br>
According to the financial
orthodoxy,
交易行里的价格
涨
跌
the rises and falls in
prices that take place here
是完全随机的
are
completely random.
无
论
多
聪
明
Nobody can ever predict them,
多深
谋远虑
however clever they are
都无人能
预测
or however much foresight they have.
p>
开
门见
山地
说
p>
Essentially, cutting to the
chase,
基本理念是你无法
战胜
市
场
the idea is
that you can't beat the market.
伦
敦金属交易所
和所有数据挖掘者一
样
Like all data miners,
哈丁需要两<
/p>
样东
西
Harding needed two things.
数据
大量的数据
Data, a lot
of it,
和能从中找出
规
律的<
/p>
计
算机算法
and computer algorithms to spot the
patterns.
二十世
纪
八十年
代中期
In the mid-1980s,
计
算机被引入
伦
敦金融城<
/p>
the introduction of
computers to the City
让
人
们
更易掌握价格行情的数据
made data about prices accessible.
哈丁
则须
开
&hear
ts;
发
♥
工具
分
♥
析
♥
这
些数据
p>
Harding had to develop the
tools to analyse it.
在那个
时
候
我已
经
能
编<
/p>
程了
At that stage
in my life, I could program a computer!
而我能
编
程的
话
Say I could program a computer,
就能
读
取新交易所的数据
I could read the data from the new
exchange,
可以
进
行数据分
♥
析
♥
I could conduct analysis of that data <
/p>
我
认为这
些本
应
是相当基本的事
and that,
to me, was rather an elementary thing to do.
然而我很惊
讶
其他人都没想到
这
点
I was
surprised that other people hadn't done it first.
我当
时认为
You'd have thought that,
这
p>
种数十
亿资
金来回流
动
的地方
where all
the millions and billions are all sloshing around,
会有很多理智
聪
明的人
you'd have thought that lots of
rational, intelligent people
已
经
在做
这类
事情了
would have, you know, done these
sorts of things.
大
卫
·
哈丁在二十年前建立的
这
家公<
/p>
♥
司
♥
The company David Harding founded 20
years ago,
如今根据数据投
资
数十
亿
英
镑
now invests billions of pounds on the
basis of data.
你
创
建了一个很好的数据
组
That
is a lovely dataset you've created,
对
p>
此我非常欣
赏
that's why I was waxing rather lyrical.
也
许
你能
发现
某种模式
You might
just find a pattern!
那是一个很大的数据
组
And that's... that's a large dataset.
许
多个交易日的大量股票数据
That's a lot of stocks on a lot of
dates.
元盛
资产
管理
这
里的机会
然后
...
Here, shot
here, and the...
如今
金融城里的科学家
远
不止哈丁一人
Harding is now far from the only
scientist in the City.
仅
是他的公
♥
司
♥
就雇用了
His company
alone employs
过
百个
经
系
统训练
的数据挖掘
师
over 100
scientifically trained data hunters,
从天体物理学家
宇宙学家
from
astrophysicists to cosmologists,
到数学家和气象学家
to
mathematicians and meteorologists.
他
们
被俗称
为宽
客
p>
[
即金融工程
师
]
They've become known as quants.
有个笑
话
提到
Well, there's the joke which is,
二十年后怎么称呼一个
书
呆子
what do you call a nerd in 20 years'
time?
答案是
老板
And the answer is
让
我想起了比
尔
·
盖茨曾
说过
It reminds me
of Bill Gates
他要是生在其他任何
时
候
who said at any
other point in history
他都会是羊入虎口
he would
have been sabre-toothed tiger food.
他建立
的公
♥
司
&heart
s;
基于一个理念
His
company is built around the idea
如果
拥
有足
够
的数据
that if you have enough data <
/p>
和
专业
知
识
p>
去分
♥
析
< br>♥
它
and
the expertise to read it,
就能
发现
无人注意的
趋势
和
联
♥
系
&he
arts;
you can spot trends and links
that no-one else has noticed.
他和他的分
♥
析
♥
师
可以分
♥
析
♥
出
He and his analysts can seek out
patterns
任何商品
买
&he
arts;♥
卖
♥&heart
s;
中的
规
律
in anything that is bought and sold.
以咖啡
为
例
Take, for example, coffee.
显
然
几乎可以肯定
Obviously,
they will probably almost certainly
周日<
/p>
卖
♥♥
出
的咖啡杯数
较
少
sell less coffee on a Sunday.
这
不是什么
伟
大的
发现
Now that's not a
revelation,
他
们
在冬天
能
卖
♥♥
出更多咖啡也不足
为
奇
or that they sell more coffee in
winter,
因
为
冬天里
人
们
更喜
欢<
/p>
待在室内
because
people are indoors more often in winter,
但有一
门艺术
或是
说
科学
或技能
but there is
an art or a science or a skill
就是运用数据
p>
发现
更多有趣的事
which is using the data to find out
more interesting things
我确信如果
让
我的分
♥
析
♥
师
来分
♥
析
♥
and I'm sure that if my analysts went
to work,
他
们
能找出的关<
/p>
联
会比
这<
/p>
有趣得多
we could find
out much more interesting things than that.
咖啡在此
分
♥
析
♥
过
程始于数据
The
process begins with data,
首先要收集
collecting
any information
任何与咖啡成本有关的信息
that might be relevant to the cost of
coffee.
数据看不
见
听不到<
/p>
The data, you can't hear it
and you can't see it.
你需要
专门<
/p>
的工具来分
♥
析
♥
You need specialised
tools to interrogate
并就相关数据做出
结论
and take decisions about that data
咖啡
咖啡
咖啡
咖啡
咖啡
全球市
场
全球市
场
咖
啡
豆
品
种
占
有
率
其
他
种
类
咖
啡
罗
布
斯
塔
咖
啡
阿
拉
比
卡
咖