打开网易新闻 查看更多图片

一个什么样的例子能说明数据被误用了?

举一个例子,一个城市有些地区犯罪率高,有些地区犯罪率低,这是统计数据。理所当然,正义之师希望在犯罪高发的地区部署更多警力。准确地说,执法部队拿到的是犯罪发生且能记录道德抓捕行动发生地的数据,但并不是实际上的犯罪事件发生的数据,因为有些犯罪行为发生了,但没有被抓捕。

按照这个思路,“高犯罪率地区”更可能抓捕了更多的犯罪分子。但是,需要留意的是,抓捕并不仅仅反映犯罪的发生,也反映了执法部队到犯罪现场进行抓捕行动本身。数据造成了误区。

就是说,因为历史原因,警察优先被派往某些“高犯罪率地区”,数据真实地反映出,在那些地区有更多的人被捕,并不是有更多人“正在犯罪”。

很可能,数据的背后,恰恰只是因为,在警力不足的地方,抓捕率较低。

这个小故事,来自The Battle for Data Science这篇文章,作者是美国斯坦福大学计算机科学名誉教授 Jeffrey David Ullman,他也是2020年图灵奖获得者。(完)