在过去的几年里,从人工智能专家到普通大众,每个人都被GPT-3和DALL•E 2这样的大型语言模型(LLM: Large Language Models)的惊人输出所吸引。这些模型,利用描述性输入,就能够产生从令人信服的人造图像到故事和诗歌等一切东西。
目前这些模型大多是由像谷歌(PaLM)或OpenAI (GPT-3)这样的大公司生产的,它们经常出于各种商业和其他原因限制对其完整模型的访问使用。现在,由1000多名志愿者组成的“大科学”(BigScience)研究小组希望通过新LLM——BLOOM来改变现状。
BigScience诞生于2021年的 Huggingface(一家布鲁克林的创业公司,专注于人工智能的民主化,流行的Craiyon-née DALL•E迷你图像生成工具的创造者)和GENCI及IDRIS这两家法国超级计算机构。最终,BigScience获得了用于Jean Zay超级计算机上的一笔500万CPU小时的资金,这台计算机的算力峰值约为14千万亿次。
其目标是通过引入“世界上最大的开放多语言模型”,使人工智能更加民主化。这就是“BigScience大型开放科学开放访问多语言模型(Large Open-science Open-access Multilingual language model)”,简称“BLOOM”。
“大型语言模型(LLM)对人工智能研究产生了重大影响。” BigScience公司在公告中写道。“这些强大的通用模型可以根据用户的指令承担各种各样的训练任务。然而,学术界、非营利组织和小公司的研究实验室却很难创建、研究,甚至使用LLM,因为只有少数拥有必要资源和独家权利的工业实验室可以完全访问它们。”
他们表示,BLOOM的发布是为了“改变这种现状”,是“人工智能研究人员有史以来在单个研究项目中进行的最大规模合作的结果”。
因此,即使与那些成功的大规模语言模型相比,BLOOM也毫不逊色。它能够生成46种人类语言和13种编程语言的文本,包含1760亿个参数,虽然不如谷歌的PaLM模型中的5400亿个参数,但略高于GPT-3中的1750亿个参数。最重要的是,BLOOM是第一个拥有超过1000亿个参数的多语言模型,它支持“几乎所有”语言,包括阿拉伯语、法语和西班牙语等主要语言。
这是一个不小的壮举,BLOOM在117天的时间里使用500万CPU小时进行训练。
BLOOM现在可供研究人员根据BigScience的负责任AI许可证(RAIL)条款下载、运行和研究。伦理是该组织主要关注的问题,而且通常是公司和公众的主要担忧点,因为LLM产生的令人信服的结果,往往会有负面作用。在开发BLOOM期间,BigScience为LLM和RAIL本身开发了数据治理框架。RAIL禁止非法和其他有害用途,更具体地禁止在有争议的应用中使用BLOOM,如“对个人合法权利产生不利影响的全自动决策,或以其他方式创建或修改有约束力的、可执行的义务”和“医疗建议和医疗结果解释”。
BigScience也计划对BLOOM进行更新。BLOOM的能力将随着对模型的不断试验和修补而不断提高。议程上的项目包括更容易指导和压缩。BigScience 称“BLOOM是我们打算发展的一个活生生的模型家族的种子,而不仅仅是一个一蹴而就的模型,我们已经准备好支持社区的努力来扩大它。”
虽然这些努力不太可能在短期内超越谷歌、Meta或OpenAI,但有一件事是肯定的:LLM花园的围墙正在缓慢但肯定地倒塌。不过只有时间才能证明LLM开放研究的好处是否大于误用的成本。
