冼汉迪谈人工智能时代语料库建设的合规问题

3月2日下午，中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。全国人大代表、政协委员及学界、法律、行业专家参会，针对人工智能大模型语料采集、处理、流通中所涉及的相关法律问题进行深入探讨。

全国人大代表、中手游（00302.hk)联合创始人、国宏嘉信资本创始合伙人冼汉迪先生发表了关于《人工智能语料建设与合规问题思考》的看法，他表示：模型训练目前仍具备较大的版权侵权风险，我的观点是，为了AI产业的发展，我建议在合理使用版权作品的情况下，可以豁免一部分大模型的版权责任，但不是无条件、无限制的豁免；要鼓励技术创新，如开发智能版权识别技术等，更好的帮助和管理版权问题；要鼓励公众多参与此话题的讨论，提升版权意识和知识产权教育，共同推动人工智能技术的健康发展。

以下是讲话全文：

大家下午好，非常感谢主办方的邀请，今天很高兴能和大家一起来探讨智能语料建设与合规的问题，我也在此谈谈我的思考。

一、大模型训练目前仍具备较大的版权侵权风险

首先，让我们回顾一下大模型的基本概念。大模型是一种深度学习模型，通过海量数据的训练，可以实现自然语言理解、生成等任务。然而，正是因为它的训练依赖于大量的数据，涉及到了版权作品的使用，因此也引发了版权侵权的担忧，未经授权利用第三方平台作品数据进行大模型训练也导致了一些纷争。

关于生成式人工智能利用的数据来源，许多人工智能开发者并不公开其训练数据集的确切细节，但大致可以分为两步：第一步，通过购买数据库、公开爬取等方式获得海量内容数据，进行一定形式的转换之后，存储在相关服务器之中；第二步，对内容数据进行分析处理，以发现一定的模式、趋势以及相关性并转变为大模型参数，供后续内容生成时调取使用。但是，这些数据中不乏含有受版权保护的内容。

二、对于大模型训练运用版权作品是否侵权，现有的判断标准是什么？

为了进一步了解如何判定用版权作品训练大模型是否是侵权的，我也去了解了一下我国相关的法律规定：

我国《著作权法》第二十四条规定了“合理使用”（即对于作品的利用，可以不经版权人许可，不向其支付报酬）的具体情形，涉及大模型训练的具体规则大致包括“个人使用”“适当引用”“学习研究使用”等。

其中：

第一点，“个人使用”适用目的存在严格限制，目前大模型主要为商业性服务，不满足该项；

第二点，“适当引用”，法律条文中的前提是“为介绍、评论说明某一作品”或“说明某一问题”，AIGC模型商业化应用显然也不满足该项；

第三点，“科学研究”，对作品的利用限定在“学校课堂教学或者科学研究”，同时还强调仅能“少量复制”，大模型大量复制与利用作品的现状无法满足该项要求。

那么如果仅仅根据著作权法来看，用未经授权的版权作品进行模型训练无疑是侵权的。

但是，除了《著作权法》之外，为了让版权法服务于促进全社会文化知识的分享、内容传播技术的进步等更高层级的公共利益，各国也设立了一个例外规则，即：如果满足“三步检验法”，也可以判定为“不侵权”。三步检验法的具体内容是 “只能在特殊情况下做出、与作品的正常利用不相冲突，没有不合理的损害版权人的利益”。

关于用这三步来评判大模型是否侵权，我相信今天在座的各位法律专家也一定会有自己的专业见解。我想重点谈谈：未经授权的版权作品用于模型训练，是否会对版权作品形成市场冲击？是否会导致公共利益不平衡？这一定是一个价值考量和利益平衡的过程，很难说有一个百分百正确的答案。我认为，AIGC的发展一定会极大的推动社会发展。虽然模型训练对版权方可能会造成一定的市场影响，但如果我们过度强调训练过程中要对版权作品付费，一定会对限制甚至是阻碍AIGC的产业发展。

所以我们也看到，从ChatGPT发布以来，世界各国为了促进AI的发展，其实已经对法律的完善作出了初步探索，目标都是在一定程度上“豁免AIGC平台在模型训练阶段的版权责任”。例如，欧盟、日本、美国都通过修改法律条文的方式对大模型的版权责任做出了一定程度的豁免。

三、建议

因此，我在此也作出以下建议：

1.为了AI产业的发展，我建议在合理使用版权作品的情况下，可以豁免一部分大模型的版权责任，但不是无条件、无限制的豁免。

2.鼓励技术创新，如开发智能版权识别技术等，更好的帮助和管理版权问题。

3.鼓励公众多参与此话题的讨论，提升版权意识和知识产权教育，共同推动人工智能技术的健康发展。例如像今天这样的讨论交流就是一个很好的契机，所以也再次感谢主办方组织这样的会议，让我们能够对人工智能语料建设与合规的问题有更加深入的思考和交流。

以上就是我的分享，谢谢大家！

冼汉迪谈人工智能时代语料库建设的合规问题

2024怎么活，AI还是AO（熬）？

华为盘古大模型变「小」，1.5B也很能打

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024

GPT-4只是个超级搜索引擎？哲学家们表示不服

“离谱的AI扩图”火了！张张那叫一个出其不意

李彦宏，西二旗新卷王

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

技术吹得再强，离用户不近有何用？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

牛弹琴：因为中国两个亲密国家的政要斗起来了

一哄而上，打不赢美国高科技

华裔天才家中被盗，焦急报警！没想到这电话一打，$30亿美金也没了

武广高铁、沪昆客专等4条高铁票价开涨涨幅近20%

河南大学就大礼堂火情致歉：无比痛心、自责

冼汉迪谈人工智能时代语料库建设的合规问题

2024怎么活，AI还是AO（熬）？

华为盘古大模型变「小」，1.5B也很能打

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024

GPT-4只是个超级搜索引擎？哲学家们表示不服

“离谱的AI扩图”火了！张张那叫一个出其不意

李彦宏，西二旗新卷王

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

技术吹得再强，离用户不近有何用？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

牛弹琴：因为中国 两个亲密国家的政要斗起来了

一哄而上，打不赢美国高科技

华裔天才家中被盗，焦急报警！没想到这电话一打，$30亿美金也没了

武广高铁、沪昆客专等4条高铁票价开涨 涨幅近20%

河南大学就大礼堂火情致歉：无比痛心、自责

牛弹琴：因为中国两个亲密国家的政要斗起来了

武广高铁、沪昆客专等4条高铁票价开涨涨幅近20%