IPP评论是华南理工大学公共政策研究院(IPP)官方微信平台。

打开网易新闻 查看更多图片

▲ 本报告在Twitter上发现了2020年美国大选被干预的可靠证据。(图源:网络)

作者:

William Marcellino

Christian Johnson

Marek N. Posard

Todd C. Helmus

编者按:

兰德公司的研究人员通过对Twitter帖子和账户的分析,发现了2020年美国大选被干预的可靠证据。这种干预包括来自传播超党派虚假言论的网络喷子账户(Trolls)和伪装成用来传播信息的超级联络人账户(Superconnectors)。

兰德公司的报告认为,这种干预旨在播撒分裂信息,破坏民众对美国民主的信心;这种干涉符合俄罗斯的利益,也符合俄罗斯的干涉套路。不过,现有的证据依然不能完全确定这些干预活动全部只来自俄罗斯。

兰德公司关于美国大选遭外国干预的系列报告第一部

外国势力干预选举是对美国民主的严重威胁。俄罗斯政府的网络特工在2016年大选中进行了一场非常复杂的恶意行动,旨在美国选民中散播混乱、煽动党派分歧(Marcellino、Cox等人,2020)。由于俄罗斯网络攻击威胁的严重性和持续存在的可能性,美国提高对这种攻击的监测能力至关重要。我们的研究旨在确保我们的民主选举不被非法势力干扰。

我们发现了足够的证据,确实能证明有一股势力(极有可能是境外的)在利用社交媒体试图影响美国总统选举。我们研究了两种为实现这一目的而协同工作的可疑账户。第一种是网络喷子,他们负责传播各种超党派言论的虚假信息;第二种是超级联络人,他们是关注者众多的账户,可以有效、迅速地传播信息。这两种账户都只聚集在某些网络圈子,同时吸引自由派和保守派的受众,并加剧了美国的政治分歧。

本报告描述了境外势力通过网络选举干预的情况。首先,我们的分析仅限于Twitter数据,我们选择Twitter数据,既是因为其可用性,Facebook等平台不会以同样的方式公开用户数据,也是因为Twitter的社交性质允许我们使用网络分析方法。本质上,“提到你”功能(回复和转发)允许算法根据Twitter用户的频繁互动将其归入不同的网络圈子。反过来,这让我们可以检查和比较不同网络社区,从而使可疑的账户和行为变得明显。

第二,我们选择的关键词决定了我们的数据集以及我们的结论。我们选择的词旨在捕捉广泛的选举趋向,而非仅针对不同的候选人。因此,我们发现的任何关于特定竞选活动的干预是关于广泛的选举趋势,而非把焦点放在个别候选人身上。

第三,尽管我们发现的策略确实与俄罗斯以前的行动相吻合,而且还有其他证据表明,俄罗斯(可能还有其他国家)正在进行干预活动,但我们依然不能完全确定这些干预活动全部只来自俄罗斯。

干预选举:网络喷子和超级联络人

在本节中,我们列出我们数据中发现的正在进行关于选举的争辩的社区,接着描述我们在这些社区中发现的两种可疑账户,并举例说明这些账户如何运作。

这项研究建立在Marcellino等人通过使用网络分析和机器学习来检测干扰工作的基础上。之前的研究使用了与2016年美国大选相关的数据,这是俄罗斯利用喷子账户进行干预的已知目标。在当时,许多激励讨论总统大选的社交媒体账户,看似是美国人持有,但实际上都是由互联网机构创造并控制的虚拟账户。

我们通过两种方式进行这项研究。第一,使用兰德公司的社区词汇分析(CLA)方法来识别在Twitter上讨论2020年美国大选的宣传社区(Bodine-Baron等人,2016年;Marcellino,Marcink等人,2020年)。第二,使用机器学习来寻找活跃在这些社区的喷子账户。

CLA的工作原理是将网络分析(谁和谁说话)与文本分析方法(这些群体在谈论的内容)相结合。我们使用了RAND-Lex(一套结合了机器学习、网络分析和计算机辅助文本分析的软件),这使我们能够收集从2020年1月1日至5月6日期间630,391个独特账户共220万条推文的数据。

图1 Twitter上讨论2020年美国大选的社区

图1显示了这个舆论战场。每个节点都代表一个由Twitter大量账号组成的相互交流的社区。11个规模最大的社区,从大约7000个账户到15万个账户不等,在图1中都有描述性标签。

图1显示了网络中的连接方向,以最大节点(通信量来衡量)为中心,由许多传入的连接线连接。那些连接少的节点处于外围。每条边表示社区之间的相互作用,边越粗(连接越多),相互作用越多。每条线边缘都有一个指示方向的箭头,但有些边缘很小,看不到箭头。最大和最中心的群落,相互作用是如此密集,箭头是可见的。

RAND-Lex中的网络社区检测算法会检测哪些账号在频繁交流,从而猜测出成员身份,然后将每个社区的所有推文分类到数据集中,通过文本挖掘对其进行后续标记,这样我们的人工分析师就可以对每个社区的推文进行分析。这些推文的数量可以从几万到几十万不等。表1总结了规模最大的11个社区的情况。

表1 规模最大的11个社区的情况

打开网易新闻 查看更多图片

除了宏观地理解舆论阵地,绘制出这些不同的舆论社区也很重要,因为我们发现喷子和超级连接者聚集在特定的社区中。把喷子和超级连接者看作是政治讨论中普遍而一致的现象是一回事,但这些可疑账号只在少数社区高度集中则是另一回事。

除了确定哪些社区是喷子和超级连接者的最大目标外,我们还能够衡量不同社区之间喷子和超级连接者存在的密度。超级连接者的正常(基线)百分比是2.5%,而喷子账户则是5%。明显高于这些的数字是值得注意的集中度。表2显示了喷子和超级连接者按社区的分布情况,每种类型的前三个最高集中度用粗体表示。

表2 可疑账号按社区的分布情况

表2中,所有网络社区的超级连接器的密集度都高于基线,且每一栏中加粗的三个社区相对于其他社区的密集度特别高。喷子密集度最高的三个社区也被加粗,不过差异不太明显。在这三个超级连接者和喷子集中度最高的社区中,有两个政治右倾的社区(一个是自由主义社区,喷子比例很高;另一个是支持特朗普的社区,喷子和超级连接者的比例都最高)。两个政治上左倾的社区也在前三甲:亲拜登社区有较多的超级连接者,而弹劾和亲俄门社区的超级连接者和喷子数量都很高。

我们的解释是,干预和操纵选举是针对美国政治光谱的两边。这样的策略与之前的俄罗斯行动和俄罗斯的信息冲突理论是一致的,但我们不能将这些行动直接归咎于俄罗斯(Posard等人,2020)。

这些社区中喷子和超级联络人的活动可能对特朗普总统有利,而对拜登不利。在亲特朗普社区中被识别为可能是喷子的账户强烈支持总统,匿名者Q,散布有利于总统候选人的反民主派内容。

相比之下,亲拜登社区整体上强烈支持拜登,但该社区中的喷子账户是反拜登的,也就是说,他们要么批评拜登,要么赞扬参议员桑德斯。我们还发现,喷子和超级连接者都推动了对拜登竞选不利的标签。我们推断这次干预行动对特朗普有利,这与其他关于俄罗斯干预2020年大选的研究相吻合(Frenkel和Barnes,2020)。

机器学习发现喷子账户

绘制出讨论2020大选的众多社区,意味着我们随后可以有效地识别网络干扰行动。俄罗斯在2016年的大选中针对Twitter上的特定社区进行了干扰,我们预计这种策略可能会继续下去。我们认为,拥有离散的数据子集可能会使干扰工作更容易被发现,事实证明也是如此。我们使用的机器学习模型发现了可能的喷子账户,这些账户聚在特定的社区中。

我们根据2016年大选中大约800个已知喷子账户的Twitter内容建立了我们的机器学习模型。我们发现,语义内容和语言风格的混合模型在发现喷子账号时表现最好,对比仅使用语义内容的训练数据,性能从80%提高到97%。这种大幅度的改进会让我们的的结论变得非常可靠。

我们使用了一个二进制分类器来训练机器学习,并将其设置为研究2016年选举中已知喷子的可能性匹配,而非简单的有或者没有喷子的结论,从而构建我们的模型。然后,我们手动检查各社区中喷子评级最高的130个账户,验证了我们的模型在新数据集上的表现。

在这个范围内最前面的几个账户看起来非常符合喷子的行为。他们具有超强的党派性,24小时不间断地转发极少甚至没有原创内容的推文,并且只分享政治内容。在这个范围内最后面的账户则看起来更像真实的人。他们有一些使用日常美式英语发表原创内容,并在表达幽默和回应推文时展示出对美国文化知识的了解,并分享一些非政治内容。

一个重要发现是,几个非超党派的账户被我们的模型判定成了喷子,但人工检查后发现他们是真人。鉴于我们之前的研究表明,俄罗斯喷子正试图模仿美国政治党派的每一个极端,因此我们认为我们的模型是有用的。因为它认为高度可疑的账户在两个不同的方面与已知的俄罗斯喷子密切匹配。

一种辨别方式是语言方面的。我们的模型在2016年验证过的俄罗斯喷子的数据上的表现表明,俄罗斯帖子具有独特的语言模式,即使它们可能听起来与其他帖子足够相似,以适应一个政治社区。我们确定为高度疑似喷子的账户在2020年的选举对话中使用了这种独特的语言模式。

我们还审查了这些账户的整体输出,查看这些可疑账户是否广泛地表现出喷子的行为:他们是否发布原创内容或专门转发,他们是否曾经发布关于家庭或非政治主题的Twitter,是否有中断或不间断、日夜不停地发Twitter,以及他们是否分享极端的党派内容。在我们人工检查的130个账户中,只有两个似乎属于真人。我们的模型可能确实存在一些假阳性,但总体来说效果不错。

我们的机器文本分析和人力定性审查表明,这些喷子账户的共同特点是他们都推送转发各种以党派为主题的推文。定性审查包括在Twitter上查找这些可疑账户,并评估他们的“推文和回复”的模式,以总结该账户内容的质量。

例如,一个发布关于“反美马克思主义者”“社会主义者”“左派”“安提法暴徒”或“共产主义者”的负面内容的账户,在定性审查中被标记为“民主党人是共产主义者/社会主义者”。这种编程是归纳性的,在审查更多的账户时用来总结出不同推文共同的主题。图2总结了这些喷子账号中的一些热门主题。

图2 喷子账号的热门主题示例

图2中的许多主题具有相似性。两种类型的喷子都推崇阴谋论,如杰弗里-爱泼斯坦(现已去世的金融家,被控性贩卖未成年人)有关于反对党成员的罪证很快就会被曝光。关于新冠病毒的理论也有一种相似的宣传:政治左倾的账号认为大流行会被政府用来推行法西斯主义的政策,或者联邦的应对措施是为了破坏民主党或少数族裔社区;政治右倾的账号则认为大流行是一个骗局,或者为了影响选举而被夸大了。最后,这两种类型的喷子都表示支持(政治左倾)或反对(政治右倾)“黑命贵”活动。

还有其他一些主题在功能上也是相似的,但在具体内容上更加党派化。右倾和左倾账户喷子账户分享的内容主要是被篡改的用于批评和贬低前第一夫人米歇尔·奥巴马、第一夫人梅拉尼娅·特朗普和特朗普总统女儿伊万卡的照片,作为对其意识形态对手的一种间接批评。

喷子账号还以超党派言论攻击对手。左倾的喷子把共和党人或政治保守派说成是法西斯或纳粹,而右倾的账户则把进步人士说成是共产主义者或社会主义者。右倾的喷子经常谈论深层国家——一种无定形的阴谋论,描述了各种国家安全和执法机构之间的关系,以及对抗它的计划,并混杂着支持和提及匿名人Q的主张的声明。

这些右倾的账户也分享了对前副总统拜登、参议员桑德斯、前国务卿希拉里·克林顿和前总统巴拉克·奥巴马的批评和嘲讽的文章。左倾的喷子账户则主要转发围绕特朗普是俄罗斯拥有的叛徒的特定内容,批评拜登不够进步(主要在拜登社区),以及分享“和平”“爱”和“良好氛围”的信息。虽然最后一个主题可能看起来是奇怪的非政治性内容,但在2016年的大选干预中,这种正面的主题也是左倾喷子的标志(Marcellino,Cox,等人,2020)。

除了传播超党派主题的推文外,网络喷子似乎还参与了通过提升标签热度来支持候选人的行动。这是我们检测到的另一种精心策划的选举干预手段。真实的Twitter用户倾向于使用多个标签(例如,如果一个真实的海报使用#caucusforbernie,该海报也可能使用其他相关的标签)。

我们发现,一些特定的、有潜在战略意义的标签在喷子账户上突然被提升为他们使用的唯一热门标签。在图3中,我们比较了两个桑德斯特定的标签。#caucusforbernie(指2020年2月3日的爱荷华州党团选举)和#berniewon(在美联社宣布参议员桑德斯在2020年2月23日内华达州党团选举中获胜后不久出现)。

打开网易新闻 查看更多图片

图3 正常账号和喷子账号推送的标签对比

图3左边的图是正常的:绝大多数发Twitter标签的账号都是蓝色的,这意味着他们使用了我们数据中234个热门标签中的10个或更多。右边的图是不正常的,在我们的数据所覆盖的时间段内,主要是一些单独的账号(其中很多是喷子),他们只使用了一个标签(#berniewon)。

图3中的推文是根据每个用户使用的其他热门标签的数量来着色的——橙色表示某个用户只使用该标签;蓝色表示某个用户经常在Twitter上使用其他热门标签。右图中描绘的橙色人群有可能是1月至5月间在这个对话中只使用了一个标签,是支持桑德斯大社区中的一个子社区,他们的行为非常独特。我们的数据只涵盖了关于2020年大选的一个特定讨论,我们的观点是,在这个讨论中有一个用户群体都统一地只用了单一标签,使得他们很不寻常。

##berniewon人群中被系统判定为高度疑似喷子的用户占据了主导地位;#caucusforbernie人群中,很少有高度疑似喷子的用户。因此,我们认为#berniewon标签的兴起可能是喷子账户的结果,这些账户很少使用标签。

超级联络人账户

我们发现的另一种可疑账户是超级联络人账号:这些账户的好友和粉丝数量非常接近或超过了Twitter对真实账户的限制。通过利用超级联络人账号提升标签热度,以支持某个候选人,可以达到干扰大选的目的。

为了防止操纵,Twitter把大多数账户的好友上限设置为5000人,只有当一个账户有大量粉丝时,才能超过这个限制(经过验证的公众人物的账户上会有一个蓝色的勾,不受限制)。这种账号高度集中的社交网络特别适合传输大量的信息,由于联网账号之间互相关注,所以可以进行设计。虽然这种高度连接的账户可以自然发生,但它们的数量相对少得多(如表2中的分布所示)。

我们在调查那些被我们的学习模型评为最有可能是喷子的账户时,第一次遇到了超级连接者。这些账户的相联度很高,但除了高频率的转发外,与其他账号的互动很少。分析这些账户的分布更加深了我们的怀疑。我们发现这些账户不成正比地集中在少数几个社区中。事实上,同样的社区也显示出同样多的疑似喷子。我们将超级联络人定义为那些拥有超过4500个朋友,每个朋友的关注者少于1.2个的账户。

在2020年1月至5月期间的非政治性Twitter话语样本中(如关于体育、电影和游戏的帖子),这样的超级连接者的存在是非常分散的,占总账户的近2.5%。在我们的2020年大选数据集中,特定社区的百分比要高得多。例如,在支持特朗普的社区中超级连接者占21.25%,在弹劾-通俄门社区中超级连接者占11.4%。

除了如此高度地集中在几个社区中,我们数据中的超级联络人有时还表现出故意提升特定标签的可疑模式。作为一个例子,图4的左侧面板展示了一个由拥有非超级连接者朋友和粉丝数量的账户所推送的标签(蓝色),右侧面板说明了那个由超级连接者所推送的标签(橙色和绿色)。图4显示了两个候选人特定标签的传播情况。#yanggang和拼写错误的#buttigeig。两个图显示了每个标签在我们数据集中的推文数量。

图4 正常账号和喷子账号推送的标签对比

标签#yanggang主要在支持拜登的社区中传播,而#buttigeig主要在支持特朗普的社区中传播。我们选择这个例子是因为#buttigeig在现实中与实际的候选人Pete Buttigieg没有什么关系;相反,它被附加到一条围绕拜登的阴谋论的推文上。在转发它的账号中,表现异常的一部分是超级连接者(橙色显示),相比之下,相对无害的#yanggang大多是由真实账号传播的。人们有可能转发一个拼写错误的标签,但超级连接者集中分享这个标签,在目标社区传播反拜登的内容,这一点很可疑。

总结

通过对2020年初关于大选的推文进行分析,我们发现有两种可疑账号:网络喷子(传播各种超党派主题的虚假用户)和超级联络人(拥有非常多关注者的账号,可以有效快速地传播信息)。我们发现这两类可疑账户在特定社区(两个政治右倾社区和两个政治左倾社区)中占比非常高。喷子账户主要负责不间断推送党派消息以煽动分裂;而超级联络人的任务则是通过与其他众多账户的高度连接性,快速地传播消息。

值得注意的是,我们并不能从我们分析的任何一个部分得出明确结论,即外国干扰确实存在。尽管我们的机器学习模型基于2016年俄罗斯的战术,但是如果俄罗斯在2020年采取了全然不同的战术,则这些假设就可能不再适用。

另一种可能是,我们的模型发现了类似2016年俄罗斯战术的痕迹。我们也承认超级连接者在Twitter上可能会自然产生,尽管数量很少。

综上,我们根据以下交叉的发现推断出这种对美国大选的协调一致的干扰。

我们的模型显示,喷子在三个特定的社区中大量聚集。喷子评分最高的账户从事的活动与俄罗斯干涉的目标和策略一致(例如传播超党派主题、破坏或支持特定的候选人,并推动某些标签)。我们发现,超级连接者大量聚集在三个特定社区。这些超级连接者还参与了与俄罗斯干预目标和策略一致的活动。

我们的发现与我们之前和正在进行的研究相吻合。俄罗斯试图推动美国现有的政治党派偏见,其策略包括利用、操纵已经存在的党派关系紧张,帮助创造“我们对他们”的政治话语(Marcellino,Cox等人,2020年;Posard等人,2020年)。

俄罗斯在这些努力中的最高目标是引起强烈的党派反应,并创造一种不团结的氛围。这是俄罗斯长期以来的策略,社交媒体使得进行这种努力比以往任何时候都要容易。基于这些原因,我们推断,2020年大选正在遭遇社交媒体进行的干预,而且很有可能是俄罗斯在美国传播虚假信息努力的一部分。

★ 本文系IPP独家译著

译者:黄磊珂、梁婉珊

审校&编辑:IPP传播

关于IPP
华南理工大学公共政策研究院(IPP)是一个独立、非营利性的知识创新与公共政策研究平台。由华南理工大学校友莫道明先生捐资创建。IPP围绕中国的体制改革、社会政策、中国话语权与国际关系等开展一系列的研究工作,并在此基础上形成知识创新和政策咨询协调发展的良好格局。IPP的愿景是打造开放式的知识创新和政策研究平台,成为领先世界的中国智库。