打开网易新闻 查看更多图片

开放源代码倡议(OSI)几乎花费了两年时间试图定义“开放源代码 AI”——即符合任何人使用、研究、修改和分享的 AI 系统。其董事会将于 10 月 27 日(星期日)对开放源代码 AI 定义(OSAID)进行投票,1.0 版本预计在 10 月 28 日发布。在这样的工作中,不可能满足所有人,更不要说将其作为目标。然而,开源社区中的一些知名人士对 OSAID 表示担忧,认为 OSI 可能将门槛设得过低,这可能会削弱多年来社区为让供应商遵守或尊重原始开源定义(OSD)所付出的努力。

定义“开放源代码 AI”

OSI 执行董事 Stefano Maffulli 于 2023 年 6 月宣布组织打算为开放源代码 AI 提供定义。他对一些宣称“开放”或“开放源代码”的大型语言模型、基础模型、工具、服务提出了异议,因为它们增添了一些与 OSD 相悖的限制。2023 年的一项调查显示,一些名义上的开源大型语言模型(LLM)并没有真正做到开放源代码。

问题并非只是简单地为 LLM 使用“符合 OSD 的许可”即可,因为涉及的组件更多。OSD 通常适用于程序的源代码,即“程序员可以修改的首选形式”。如果开发者无法研究、使用、修改和分享一个程序,那么它就不被视为开源;如果某许可证不保持这些自由,则该许可证不符合 OSD。一个程序可以包含非自由的数据并仍然是开源的。例如,雷神之锤 III 竞技场(Q3A)的源代码在 GPLv2 下开放发布,但不包含实际游戏所需的pak文件。这并不影响他人使用 Q3A 的代码创建自己的游戏,如Tremulous。

感兴趣吗?免费试用 LWN一个月,无需信用卡。

讨论“AI 系统”时,情况更加复杂。AI 系统不只是运行模型的代码,而是一个复杂的集合,数据也无法像游戏中的 pak 文件那样完全分离。以 LLM 为例,涉及的内容包括模型架构、训练代码、模型参数、训练方法、数据标注过程、支持库,以及用于训练的原始数据。

OSI 从去年起便开始着手制定这一定义。2023 年 6 月 21 日,它在旧金山的 Mozilla 总部举行了启动会议,之后通过一系列线上线下会议和论坛邀请公众参与。LWN 还在FOSDEM 2024上对其中一场会议进行了报道。

OSAID 的当前草案引用了经济合作与发展组织(OECD)在其人工智能委员会建议中的 AI 系统定义:

一种基于机器的系统,旨在通过接收到的输入进行推理,从而生成可影响物理或虚拟环境的输出,如预测、内容、推荐或决策。

这包括训练和运行系统的源代码、模型参数(如权重或其他配置设置),以及关于训练数据的详细信息,使得技术人员可以创建一个实质上等效的系统。

修改的首选形式

根据提议的定义,以上所有元素必须在 OSI 批准的许可下提供,这似乎符合我们对“开源”的期望。然而,数据信息和模型参数则可以通过“OSI 批准的条款”提供。什么是 OSI 批准的条款目前尚未明确。

对于训练数据,没有提供的要求。根据当前的 OSAID 草案,只需提供“关于数据的详细信息”,而非数据本身即可。

OSI 在 8 月 22 日发布了 0.0.9 版本,并承认“训练数据是定义中最受争议的部分之一”。然而,OSI 选择不要求训练数据:

经长时间的讨论和联合设计会议后,我们认为将训练数据作为一个优势,而非强制要求,是最佳方案。
训练数据对于研究 AI 系统非常有价值:可以理解系统所学的偏见,而这些偏见可能影响系统行为。然而,训练数据并不是对现有 AI 系统进行修改的首选形式。这些数据中的见解和关联已经被学习。

当前的定义让一些人觉得 OSAID 并未完全保障其应有的四项自由。例如,julia ferraioli写道如果没有数据,OSAID 只保证了使用和分发 AI 系统的能力。她认为:“他们可以通过迁移学习和微调等方法构建在其之上,仅此而已。”

Tom Callaway 在 LinkedIn 上详细论述了为什么开放数据应该是必要的。他承认分发者可能出于多种原因不愿或无法分发训练数据,如数据本身具有很高的货币价值,或数据受到法律问题的限制。然而,他指出,这并不能为允许公司称其系统为开放的定义提供理由:

如果我们让开放源代码 AI 的定义包含一项可选数据的漏洞,我们就贬低了“开源”在其他领域中的意义。虽然许多公司希望开源的意义被弱化,但我认为我们绝不能在这里妥协,即便这意味着一开始的开放源代码 AI 系统数量较少。

对缺乏训练数据的反对不仅仅是对开源原义的坚持。Giacomo Tesio列出了一些在 OSAID RC2 版本中未解决的问题,包括在机器学习模型中植入不可检测的后门的安全隐患。

各方意见

自由软件基金会(FSF)宣布其正在制定“自由机器学习应用程序”的标准,以识别符合四项自由的 ML 应用程序。FSF 认为“若要称一个 ML 应用程序‘自由’,其所有训练数据和相关数据处理脚本都必须尊重用户的自由”。

然而,FSF 在此区分了非自由与非道德:

某些非自由的 ML 系统可能因不公开训练数据有合理的道德理由,例如个人医疗数据。在这种情况下,我们会将整个应用程序视为非自由的。然而,若它有助于完成对社会至关重要的工作,例如疾病诊断,使用它在伦理上或可被原谅。

软件自由保护协会则发布了关于 LLM 支持的生成式 AI 编程的“理想声明”,侧重于用户自由而非 OSAID,提出了一种只用于创建 FOSS 的理想 LLM 系统。

对批评的回应

我就当前 OSAID 草案中的一些批评问题邮件询问了 Maffulli,为什么 OSI 看似在“降低标准”。他回应道:

直言不讳地说:您提到的“源代码再分发”正是让像 [Callaway] 这样的人陷入思维陷阱的原因。
有些群体认为需要更多的组件来保证透明度,而另一些群体认为模型参数和架构足以对 AI 进行修改。OSAID 集合了全球的广泛利益相关者,其结果反映了 AI 实践者的真实见解。