仇恨犯罪(Hate Crime)是针对某一特定社会群组成员的犯罪行为。这些社会群组中包括种族、宗教、身心障碍、国籍、性别等在内的多项分类。在美国,记录仇恨犯罪长期以来给研究人员、记者和社会科学家带来一系列的挑战。在这一领域,记录的情况充其量也只是零零散散的,数据要么令人遗憾地不完整,要么根本不存在。

然而现在,我们对仇恨犯罪的理解的重要性比以往任何时候都要重要了,特别是在上周末发生在弗吉尼亚州的种族暴力冲突事件后。

为了更好地解决仇恨犯罪这一问题,谷歌和ProPublica(一个独立的非盈利新闻编辑部,为公众利益进行调查报道)联手推出了一个基于机器学习的工具——仇恨犯罪新闻记录索引(Documenting Hate News Index)。它通过对大量新闻文章的分析,建立起一个全国范围内的能预测仇恨犯罪发生地的预警图。

打开网易新闻 查看更多图片

这个工具由谷歌推出的的Google News Lab(谷歌去年为新闻工作者推出的一套工具),以及数据可视化工具 Pitch Interactive,联合 ProPublica打造而成。它从过去6个月的谷歌新闻文章中获取原始信息,再用Google Cloud Natural Language API 来创造出一个可视化工具,帮助新闻报道者及时在全国范围内发现哪里正在有仇恨犯罪事件发生。这个工具提供的数据是在当年发生的持续更新的数据快照,这能为新闻报道者提供一个报道入手点,这对于新闻报道来说非常有价值。

这个工具汇集了那些与仇恨犯罪、偏见或虐待有关的新闻文章。这可能包括反犹太主义的涂鸦,或者有关法庭案件的信息的类似事件等等。另外,谷歌还计划对这个工具的新闻文章数据集进行监控,以确保不会出现像只提到“仇恨”一词的文章那样的错误新闻事件。

用户可以通过这个工具按日期搜索,或使用关键字搜索与仇恨犯罪有关的新闻文章。它还通过算法来提供相关的关键词,比如罪犯的名字,犯罪发生地点,或者是仇恨犯罪的类别。

为了确保新闻数据始终是最近更新的,这个工具会每天对数据库进行更新,并且相关事件可以追溯到当年的2月份。第三方开发人员可以通过Google Trends Github 访问此工具。

当然,这个工具也不是100%地能对仇恨犯罪做出预测,它也有它的局限性。因为这个工具只是单独地基于新闻文章报道,而大多数的仇恨犯罪事件都没有被报道,因为那些犯罪人员并不总是想上新闻被曝光啊。

坦白地说,目前这个工具还不是很有效地适用于达成预测仇恨犯罪的目标。这是因为现在还非常缺少有关仇恨犯罪的新闻数据。虽然FBI在法律上有义务收集关于仇恨犯罪的信息,但他们的信息来源却很依赖当地政府对仇恨犯罪的报告,而当地政府却没有被法律规定要求收集这些仇恨犯罪的信息。

总之,谷歌推出的这个工具对记者和社会科学家而言都将是一个有用的工具。而且如果有相关的法律来促使更多的仇恨犯罪信息被收集的话,那么这一工具能用的数据就越多,就能更有效地降低仇恨犯罪的发生率,因为我们知道,现在的机器学习最需要的就是庞大的训练数据。