-
神秘的本福特定律
physixfan
2010-10-31 21:25
统计一下世界上
< br>237
个国家的人口数量,你觉得其中以
1
开头的数会占多大比
例,而以
9
开头的数又占多大比例呢?如果你的回答是都为
1/9
,恭
喜你你是正
常人,但是事实却不是如此:以
1
< br>开头的数惊人的占到了
27%
,而以
9
开头的
数却只占
5%
。下图可以很形象的展示出在各国人口数量问题上,以各个数字开
头的数占
了多大的比例
(图片来自维基百科)
。
为什么会相差这么大呢?这正是
神秘的本福特定律在起作用。
本福特定律,
也称为本福德法则,
说明
一堆从实际生活得出的数据中,
以
1
为
首
位数字的数的出现机率约为总数的三成,接近期望值
1/9<
/p>
的
3
倍,推广来说,越
< br>大的数字,
以它为首几位的数出现的机率就越低;
精确地
数学表述为:
在
b
进位
制中,以数
n
起头的数出现的机率为
< br>logb(n + 1) ? logb(n)
。
在十进制中,首位数字出现的概率为:
d
1
2
3
4
5
6
7
8
9
d
1
2
3
4
5
6
7
8
9
p 30.1%
17.6%
12.5%
9.7%
7.9%
6.7%
5.8%
5.1%
4.6%
这个定律的发现
,
据说是因为本福特在翻对数表的时候发现前面几页被翻得很黑
很破烂,
越往后越颜色越浅。
由此他想到会不会是
1
开头的数字就是比其他数多,
他统计了一下发现果
然如此。
其实这个对数表的事情真假难辨了,
就像是牛顿说
p>
自己是被苹果砸到了头才发现的万有引力定律一样,
只要最后的定律
有用就可以
了。
首先说明一下本福特定律的适用范围
这个定律是一个非常神奇的定律,
它的适用范围异常的广泛,
几
乎所有日常生活
中没有人为规则的统计数据都满足这个定律。
比
如说世界各国人口数量、
各国国
土面积、账本、物理化学常数、
数学物理课本后面的答案、放射性半衰期等等数
据居然都符合本福特定律。
值得一提的是,
科学家还发现,
统计物理的三个重要
分布,
Boltzmann-
Gibbs
分布,
Bose-
Einstein
分布,
Fermi-Dirac
分布,也基本
上满足
Benford
定律!(来源:李淼的
博客
)
其次这个定律毕竟还是有适用范围的
第一,这些数据必须跨度足够大,必须横跨好几个数量级才能产生这个结果。
第二,有人为规则的数据就不满足次定律,比如说手机号码、身份证号、发票编
< br>号等数据,
明显不满足这种对数分布律。
也就是说,
p>
本福特定律正是没有任何限
制才显露出来的定律,
< br>越是对数据的产生有人为限制,
越是不满足该定律。
第三
,
数据不能经过人为修饰,
随便人为修改的数据一般就不满足本
福特定律了,
比如
当年著名的安然公司造假案,
他们的账本就没有满足本福特定律,
因此这个神秘
的定
律甚至可以用来判别是否财务造假。
那么到底该如何理解这个
神秘的定律呢?为何自然产生的数据会满足这么奇特
的一个定律,而不是均匀分布呢?<
/p>
本福特定律产生的根源,
就在于指数增
长。
这幅图可以直观的显示,
如果一个变
量随时间成指数增长的话,
那么这个变量开头的数字随着时间的变化就应该是如
下图:(横轴代表时间,纵轴代表那个变量)
显然,在某时刻你得到它以
1
开头的概率要大于
9
开头。而这是只取一个值
的
情况,
如果是取大量的数据的话,
在
某时刻你观察到他以
1
开头的数据数量就大
于以
9
开头的数量了。
而指数增长
的形式在自然界是十分普遍的,
只要一个变量
的增长率和他的大
小成正比,
结果就会是指数增长。
比如说人类科技发展的速度<
/p>
大致和已有的科技成果成正比,
所以人类的科技发展就是个指数增
长;
人口增长
率会和已存在人口数成正比,
因此没有资源限制的人口增长也是指数增长。
指数
增长是自
然中极为普遍的一种变化规律,
而这种变化规律可以直接导致本福特定
< br>律。
另外一种直观的解释(来自维基百科)是这样的
从数数目来说,顺序从
1
开始数,
< br>1,2,3,…,9
,从这点终结的话,所有数起首的
机
会似乎相同,
但
9
之后的两位数
10
至
19
,
以
1
起首的数又大大抛离了其他数
了。而下一堆
9
起首的数出现之前,必然会经过一
堆以
2,3,4,…,8
起首的数。若
果这样数法有个终结点,以
1
起首的数的出现率一般都比
9
大。
就以一个城
市的所有门牌号为例,有的街道门牌号可能在
100
多就结束了
,有
的在
500
多结束,有的在
900
多结束。注意到
500
多结束那条街一定包含了
1
、
10+
和
100~199
这些
1
开头的门牌号,而不包含
9
< br>开头的百位数,只包含
9
及
90
+
的以
9
开头的数,
< br>这样一来明显以
1
打头的就多于
9
打头的了。
然后对整个
城市的所有街
道做一个综合,最终就满足本福特定律了。
以上只是直观的理
解,如果想深究它的根本原理,可以参见它的证明
Hill,
T. P. “A Statistical Derivation of the
Significant
-
Digit Law.”
Stat. Sci. 10,
354-363,
1996.
。
另外,
值得一提的是,
本福特定律满足尺度不不变性,
即如果
我们换一套单位制,
本福特定律仍然成立。
其实,
这也可以作为大自然产生的统计数据满足该定律的
一个解释:
如果我们把原来的单位是米的统计数据换一个单位,
例如换成英尺或
者公尺,
那么统计数据的分布应当不变。
而唯一满
足这种尺度不变性的分布,
应
当是某种对数分布,也就是本文的
主角本福特定律。
-
-
-
-
-
-
-
-
-
上一篇:所有动物的单词
下一篇:业余绕制输出变压器参数和公式计算