KDD2022/火山语音创造性提出对抗语音攻击新方案，可高效并准确发现语音安全漏洞

日前，被誉为数据挖掘领域历史最悠久、规模最大的国际顶级学术会议 ACM SIGKDD（国际数据挖掘与知识发现大会，KDD）落下帷幕。会上，火山语音多篇论文被 KDD 2022 Research track 接收并发表，同时创新性提出基于语音合成来有效攻击语音识别系统(Audio Adversarial Attack)的新技术路径，用于高效并准确发现语音安全领域的新漏洞。

伴随机器学习在语音识别上的技术突破，形式多样的语音助手已成为人们日常生活中必不可少的工具，尤其在一些特定场景下，语音助手可以通过识别语义信息帮助人们完成例如购物、转账、缴费、邮件处理等简单动作，便利正逐渐渗透到生活的方方面面。

但据近些年的研究表明：由于神经网络的冗余特性可以让攻击者在输入中加入人类无法识别的微小扰动，从而误导原本训练好的模型，甚至可以给出攻击者想要获得的输出结果，例如：

明明听上去是：Send a greeting email to Tom？

但经过语音识别系统之后的输出竟然是“Transfer one million dollars to Jerry.”

不可否认，这种安全隐患正逐渐成为限制语音识别系统大规模应用的关键因素之一，所以研究如何设计高效的攻击方案发现语音识别系统的弱点和漏洞，进而缓解消除上述语音安全隐患，已成为学术界和工业界共同关注的热点问题。

基于此，火山语音经文献调研发现：现有的语音攻击主要源于一种良性语音依赖假设（上述图 a），即 Audio dependent attack，这种假设要求对抗语音样本（Adversarial audio）是基于已有的干净语音（Benign audio）上添加扰动产生。但在现实场景中，这种干净语音有可能不存在（比方说，说话人可能根本没有发出声音）或者无法包含特定的语义信息（例如，说话人在交谈中没有说出某句话），如果遭遇上述情况，现有的方案将难以被应用：对已有干净语音的依赖性极大限制了语音攻击的广泛性，造成了判断的不准确。

对此火山语音团队提出了一种全新的“无中生有式”对抗语音攻击方案（上述图 b），所谓“无中生有”是指不再依赖已有的一段干净语音，而是采用语音合成模型直接生成包含特定语义信息的语音对抗样本，避免对干净语音(Benign audio)的依赖，改变过去通过“已有”来判断的思路，进而降低安全漏洞的误判率。

目前该方案的介绍论文

（https://dl.acm.org/doi/10.1145/3534678.3539268)已被 KDD 2022接收并发表。

方法概述

如图所示，火山语音团队提出的 Speech Synthesising Attack (SSA)，可以合成文首所示包含“Send a greeting email to Tom”的语音，同时欺骗 ASR 系统翻译为欺骗目标“Transfer one million dollars to Jerry”。如果要实现这样一个挑战性任务，两个重要的条件需要同时被考虑到，分别是：ASR 系统需要最终转录成任意设定的欺骗目标，以及合成语音需要足够自然，让人类无法轻易觉察到该语音为对抗攻击样本。

为此团队引入基于 Conditional Variational Auto-Encoder 的 VITS 模型作为语音合成模块，通过优化 Audio Style Vector z 从而达成以上两个重要前提，具体的 loss 如公式所示：

为达成条件一，团队使用 Connectionist Temporal Classification (CTC) loss 来迫使 ASR 系统输出设定的目标文本(target text)。为达成条件二，考虑到 VITS 模型训练时z服从标准高斯分布，z 做出如下约束：

为了使对抗语音样本合成更加高效，火山语音团队还提出了一种 Adaptive Sign Gradient Descent 的优化策略，整体算法流程如下图所示：

实验结果分析

火山语音团队在 Audio Mnist、CommonVoice 以及 LibriSpeech 三个数据集上分别对算法进行了验证。实验结果（如下表所示）显示：相比之前的语音对抗攻击算法，新范式在攻击成功率(Success rate) 上表现出显著优势，已经达到过去方法的两倍左右。

同时团队还分析了此种办法带来优势的原因，图b为传统方法在一段干净语音（图a）上加载噪声的攻击方式。可以看出，噪声的加噪受限于原始语音波形，但基于 SSA 产生的语音对抗样本，虽然包含的语义信息与图 a&b 一致，但对比之下波形差异很大，这说明 SSA 在产生对抗语音样本时相较于已有方法，能够更加直观发现安全漏洞不易被误导，预期将会成为一种发现语音识别系统安全漏洞的方案被广泛采用。

除上述论文外，火山语音团队推出的另外一篇论文“重要性优先的策略蒸馏”(Importance Prioritized Policy Distillation)也成功被 KDD 2022 接收并发表。

论文地址：

https://dl.acm.org/doi/10.1145/3534678.3539266

该论文主要解决了强化学习模型蒸馏过程中 Data bias 问题。在传统的策略蒸馏(Policy distillation)方法中，每一个Frame(State-Action pair, 状态&动作组合)对于学生策略(Student policy)的重要性在训练中是被假设为均匀的。然而在强化学习任务中，每个 Frame 上的 Action 选择实际上是对应着不一样的奖励(Reward)。

为了自适应的根据 Reward 收益进行 Policy Distillation 训练，火山语音团队提出了一种基于香农熵(Shannon Entropy)对强化学习任务 Frame importance 进行估计的方法，并基于 Atari 游戏任务验证了该方法在策略蒸馏以及压缩(Policy compression)任务上的有效性。这种基于重要性优先的策略蒸馏方法将会更好地服务于强化学习模型在部署时的模型压缩任务，从而助力在各个强化学习场景下的实际落地。

火山语音，作为字节跳动 AI Lab Speech & Audio 智能语音与音频团队，长期以来面向字节跳动内部各业务线以及火山引擎ToB行业与创新场景，提供全球领先的语音 AI 技术能力以及卓越的全栈语音产品解决方案。目前团队的语音识别和语音合成覆盖了多种语言和方言，多篇论文入选各类AI 顶级会议，技术能力已成功应用到抖音、剪映、番茄小说等多款产品上，并通过火山引擎开放给外部企业。

KDD2022/火山语音创造性提出对抗语音攻击新方案，可高效并准确发现语音安全漏洞

穆雷压哨绝杀！掘金20分神逆转湖人2-0！詹皇26+8+12尽力局

胖东来售卖以色列进口橙汁惹争议，有网友表示不会再买

俄外交部：波兰境内出现的美核武器将成合法打击目标

台媒：与台军张骞舰在台海相遇，解放军丽水舰喊话警示“注意你的位置”

铿锵有力的投票发言！不能对侵略袖手旁观！

纪云浩书记火了！下地拦春耕，自称不懂法，身份被扒：专业出身

中国游客在印尼“地狱之门”景点坠亡

深圳卫健委“霸总”短视频上热搜！对话编导：团队多是年轻人，走红并不意外

汤家凤回应获评淘宝最佳睡前读物！

辽宁副省长回应扭转人口流出局面：外界对辽宁预期已发生转变

乌克兰基辅拉响防空警报

网友拍下暴雨天，工作人员对着绿化带浇水，城管局：给高架桥下的绿化带浇水全国很多城市都有先例

问界新M5售价公布：24.98万元起

贵阳，卧槽！这大哥牛逼啊！

女子带着金手镯做核磁共振出来后手臂出现一长条水泡

沙滩座椅坐10分钟收80元？当地回应了

人社部：1-3月实现失业人员再就业113万人

国防教育法拟修订

刘和平：朝鲜频密发射导弹释放了哪些信号？

足协：赛事主办方应在启动售票前告知球星出场条款

KDD2022/火山语音创造性提出对抗语音攻击新方案，可高效并准确发现语音安全漏洞

穆雷压哨绝杀！掘金20分神逆转湖人2-0！詹皇26+8+12尽力局

胖东来售卖以色列进口橙汁惹争议，有网友表示不会再买

俄外交部：波兰境内出现的美核武器将成合法打击目标

台媒：与台军张骞舰在台海相遇，解放军丽水舰喊话警示“注意你的位置”

铿锵有力的投票发言！不能对侵略袖手旁观！

纪云浩书记火了！下地拦春耕，自称不懂法，身份被扒：专业出身

中国游客在印尼“地狱之门”景点坠亡

深圳卫健委“霸总”短视频上热搜！对话编导：团队多是年轻人，走红并不意外

汤家凤回应获评淘宝最佳睡前读物！

辽宁副省长回应扭转人口流出局面：外界对辽宁预期已发生转变

乌克兰基辅拉响防空警报

网友拍下暴雨天，工作人员对着绿化带浇水，城管局：给高架桥下的绿化带浇水 全国很多城市都有先例

问界新M5售价公布：24.98万元起

贵阳，卧槽！这大哥牛逼啊！

女子带着金手镯做核磁共振 出来后手臂出现一长条水泡

沙滩座椅坐10分钟收80元？当地回应了

人社部：1-3月实现失业人员再就业113万人

国防教育法拟修订

刘和平：朝鲜频密发射导弹释放了哪些信号？

足协：赛事主办方应在启动售票前告知球星出场条款

网友拍下暴雨天，工作人员对着绿化带浇水，城管局：给高架桥下的绿化带浇水全国很多城市都有先例

女子带着金手镯做核磁共振出来后手臂出现一长条水泡