EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

大模型（LLMs）的训练数据中可能涉及敏感信息，例如个人隐私或受版权保护的内容，因此需要有效地移除这些知识。然而，直接从预训练数据中删除相关信息并重新训练模型，不仅成本高昂，还会带来巨大的计算开销。为了解决这一问题，敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效移除模型参数中不适宜的知识。然而，目前的知识擦除评估方法难以区分敏感知识（如隐私、版权）与通用知识。

为此，本文提出了一个新的基准——Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo），用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时，我们提出了一种名为MemFlex的新方法，通过利用梯度信息，精准定位并移除模型中的敏感知识。

论文题目： To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models 论文链接： https://arxiv.org/abs/2407.01920 代码链接： https://github.com/zjunlp/KnowUnDo

一、引言

大模型（LLMs）的训练数据中可能包含敏感信息，例如个人隐私和受版权保护的内容，因此需要对这些知识进行有效擦除。然而，直接从预训练语料中移除相关数据并重新训练模型不仅成本高昂，且计算量巨大。为此，基于知识编辑的敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效地清除模型参数中不适宜的知识。

现阶段的知识擦除评估范式难以区分敏感（如隐私、版权等）和通用知识。基于此，本文提出Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo）基准，用于更细致地评估版权内容和用户隐私领域的知识擦除方法，同时提出MemFlex方法，利用梯度信息精确地定位和擦除敏感知识。

二、数据集

本数据集分为版权内容和用户隐私两部分。对于版权内容，从GoodReads网站“Best Books Ever”榜单选取代表性书籍，再依据美国版权法分别定义擦除和保留范围内的知识类型，结合书籍和知识类型利用GPT-4生成问题-答案对构建数据集；对于用户隐私，构建虚构作者信息数据集，按照相关隐私法规把私人信息归为擦除范围知识，公共信息归为保留范围知识，同样使用GPT-4生成相应问题-答案对。同时，还确定了评估指标，擦除评估包括擦除成功率、保留成功率、困惑度和ROUGE-L，通用任务性能评估使用MMLU、ARC Challenge、TruthfulQA和SIQA等数据集来评估模型在知识理解、真实性和知识推理等通用任务上的性能。

三、方法

MemFlex方法受到知识编辑中的知识定位以及利用梯度信息提高定位精度相关研究的启发。其核心是通过分析梯度信息来确定模型参数空间中的擦除范围（Unlearn Scope）和保留范围（Retention Scope），然后在擦除阶段仅对擦除范围内的参数进行更新。以下是具体步骤：

确定擦除和保留梯度矩阵

对于擦除范围内的知识：

给定其中（表示擦除数据集），将标签替换为随机标签形成的。

通过反向传播获取梯度信息

重复上述随机替换和反向传播过程五次，取平均值得到稳定的擦除梯度矩阵。

对于保留范围内的知识，采用类似的过程，将属于保留数据集中的数据进行处理，得到保留梯度矩阵。

分析梯度矩阵

通过对梯度矩阵进行L2正则化，得到梯度信息的两个构成要素：方向和大小。计算擦除和保留梯度矩阵之间的余弦相似度，如果方向相似度高，表示在擦除过程中会对保留知识产生干扰。同时考虑梯度的大小，如果擦除知识的梯度大小较大，则表示这些参数需要较大的更新。

识别知识擦除关键区域

通过综合考虑方向和大小，设置阈值（如

）来识别参数区域。满足的参数区域被确定为关键擦除区域，这些区域的梯度方向对于擦除知识与保留知识有明显差异，且梯度大小显著。

参数更新

在擦除阶段，仅更新关键擦除区域的参数即将原始模型参数中的部分按照以下方式更新：，其中表示在第

t

个时间步模型

M

所有模块的参数。

四、实验

实验结果表明，在用户隐私领域，GA和随机标签微调虽能擦除敏感知识却未能保留通用知识，对抗样本擦除方法虽保持通用知识和低困惑度，但没有很好擦除敏感知识，梯度上升和下降组合方法在区分范围和通用任务性能上有一定表现，MemFlex在保留知识方面取得最佳平衡；在效率方面，MemFlex通过在擦除范围内更新参数提高了擦除性能和效率。

五、分析

知识定位分析：MemFlex通过冻结与保留知识对齐的关键参数区域来保留整体性能，而其他方法由于过度更新参数导致整体性能下降，以至于重新在保留知识上学习也难以恢复。‍

知识擦除的鲁棒性分析：我们通过在问题前拼接简单的提示检验知识擦除的鲁棒性，可以发现相比于GA类方法的明显下降，MemFlex具有较高的稳定性。同时，使用RoBERTa分类器区分擦除范围时，在添加简单的提示后擦除成功率下降，表明分类器缺乏鲁棒性。

六、总结

在本论文中，我们基于知识编辑进行大模型隐私知识擦除，提出了新基准 KnowUnDo和新基线方法MemFlex，其通过定位再擦除，实现擦除敏感知识的同时通用知识。未来可以在以下几个方向改进：1) 保护多模态的版权内容和用户隐私（图像、视频、语音信息等）；2) 精细化定义需要擦除和保留的知识类型；3) 优化知识定位方法，实现更精准的知识擦除。

作者：田博中来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

ChatGPT拒绝谈论这个人，没人知道为什么

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

沈向洋，发了一个可以识别万物的大模型

离职OpenAI后，翁荔博客首次上新，引众网友围观学习（中文全文）

超低门槛用AI，你的企业和大模型之间只差这三大法宝

原来陈梦对谁都变线，这球技莎莎怎么赢，靠刷数据迟早要露馅！

水果批发市场一店主直呼今年生意太难了，生意难做钱难挣

是时候展示真正的技术了，这发球回抛几条街了，反手明显是短板！

没有足够的知识储备假扮皇上就是找死

物业半夜不准业主出小区业主出门被推搡还遭斥：别说话

29名建筑工赴香港打工月薪3万

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

女游客用饼干喂鹿被日本网红训斥前者连说：I'm sorry

总算明白这次访台，为什么不是全红婵、潘展乐，一定必须是马龙了

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

在阿里，痛苦的人开始信教

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

ChatGPT拒绝谈论这个人，没人知道为什么

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

沈向洋，发了一个可以识别万物的大模型

离职OpenAI后，翁荔博客首次上新，引众网友围观学习（中文全文）

超低门槛用AI，你的企业和大模型之间只差这三大法宝

原来陈梦对谁都变线，这球技莎莎怎么赢，靠刷数据迟早要露馅！

水果批发市场一店主直呼今年生意太难了，生意难做钱难挣

是时候展示真正的技术了，这发球回抛几条街了，反手明显是短板！

没有足够的知识储备假扮皇上就是找死

物业半夜不准业主出小区 业主出门被推搡还遭斥：别说话

29名建筑工赴香港打工月薪3万

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

女游客用饼干喂鹿被日本网红训斥 前者连说：I'm sorry

总算明白这次访台，为什么不是全红婵、潘展乐，一定必须是马龙了

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

在阿里，痛苦的人开始信教

物业半夜不准业主出小区业主出门被推搡还遭斥：别说话

女游客用饼干喂鹿被日本网红训斥前者连说：I'm sorry