统计学的威力——利用本福特定律检查数据造假

By 小二 at 2020-02-03

在实际生活得出的数据中,不同数字开头的数字出现机率是有规律可循的。如果不遵从这个规律,那么就表明数据存在人为伪造。

1935 年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。

本福特再进一步研究后发现,只要数据的样本足够多,数据中以 1 为开头的数字出现的频率并不是 1/9,而是 30.1%。而以 2 为首的数字出现的频率是 17.6%,往后出现频率依次减少,9 的出现频率最低,只有 4.6%。

数学原理

在 $b$ 进位制中,以数 $n$ 起头的数出现的机率为:

参考资料:

  1. 知乎日报:有哪些隐藏的财务数据造假细节?
  2. 维基百科:本福特定律

检查数据, 造假, 统计学, 定律, 威力


小二在线教授统计学!

electron8964 at 2020-02-03
1

@electron8964 #1 支持 $\LaTeX$ 真的是正确的选择。

小二 at 2020-02-03
2

別迷信這種,真實數據除以10,就破解了

拿衣服 at 2020-02-03
3

除以10,再用前幾天的數據,這種造假都符合本福特定律

拿衣服 at 2020-02-03
4

除以任意常數應該都不會改變符合本福特定律的特性

拿衣服 at 2020-02-03
5

@拿衣服 #5 符合本福特定律的不一定是真数据,但不符合的一定不是。

如果中共的官僚了解本福特定律的存在,并且针对此定律去修改数据,我只能说,那已经超过绝大多数上市公司了。

小二 at 2020-02-03
6

@小二 #6 财务造假你要是差了一个数量级,傻子都能看出来,本福特定律没法用在中共对灾难的瞒报判断上,或者说没法用在时间序列数据上。事件序列的造假都不需要改数字,延迟几天就足够假了。本福特定律在线测试的网站很多你自己不知道去试试?

新闻实验室 at 2020-02-04
7

@小二 #6 那也不一定,对特定分布本福特定律本来就不适用 何况就常识而言,这个数字有假还需要争论吗?

rrrr at 2020-02-04
8

@rrrr #8 他们自己的专家发表的论文不是都打自己脸了吗?内部数据跟向社会公布的差十倍。1月3号就把疫情通报给美国了,但却等了两周才通知中国人民。

新闻实验室 at 2020-02-04
10

@新闻实验室 #10 现在唯一可能有点参考价值的就那些不太严重的省市数据,但是因为严重的省市也会假装不太严重(除了湖北),所以这根本就是一个无解的循环,导致所有数据都没有价值。

rrrr at 2020-02-04
11

@小二 #6 你这么迷信定律,大数定律你懂不懂啊?财务造假只有一两个人参与,你一两个人随便编数字能编出一个高斯分布来吗?这种国家级造假是各省市和中央一起造假,层层瞒报,成千上万人参与造假,有30-40个人参与就能应用大数定律,造出来的数字就符合你这个本福特定律了。在线测试本福特定律的网站很多,你自己去试试看官方公布的确诊和死亡数字哪个不符合本福特定律? https://www.dcode.fr/benford-law

新闻实验室 at 2020-02-04
12

@新闻实验室 #12 你是脑子不好吗?杠精你回知乎好么?我有说要用本福特定律检验疫情数字吗?科普个定律要被你杠,杠精你回知乎吧。

小二 at 2020-02-04
13

@小二 #13 你怎么不怪自己数学不行呢?承认自己错了有那么难吗?你难道跟伟大光荣正确的党一样永远正确?

新闻实验室 at 2020-03-07
14

@新闻实验室 #14 伟大光荣正确的be4先生,麻烦你回你的 be4 站点。

我只是在帖子里介绍了本福特定律可以用于揭示数据造假,我没有这个定律可以揭示一切造假,也没有说可以用于揭示疫情数据。我也从没说自己永远正确,也没有说自己数学很好。

伟大光荣正确的be4先生,您数学这么厉害,我没有资格跟您探讨任何问题,请回自己的站点吧。

小二 at 2020-03-07
15