打开网易新闻 查看更多图片

6月14日上午举行的2024北京智源大会上,北京智源人工智能研究院(以下简称智源研究院,BAAI)公布一系列大模型“全家桶”和智算软件系统。

其中包括发布万亿参数的大语言模型进展,用于检索增强(RAG)的向量模型、采用自回归架构的多模态大模型、具身智能大模型和生物计算大模型,以及支持8种芯片的智算操作系统FlagOS。

智源研究院院长王仲远表示,FlagOS是面向大模型、支持多种异构算力的智算集群软件栈。目前,FlagOS已支持超过50个团队的大模型研发,支持8种芯片,管理超过4600个AI加速卡,稳定运行20个月,SLA(服务级别协议)超过99.5%;其中,支持多元AI异构算力的并行训练框架FlagScale支持基于国产算力的8x16B千亿参数MoE语言大模型1024卡40天以上的稳定训练,全面帮助用户实现高效稳定的集群管理、资源优化、大模型研发。

王仲远还表示,1万亿参数版本的模型即将开源发布,初步的对话测试结果显示,该模型在闲聊问答、知识问答、翻译测试、长文写作、幻觉测试、安全测试方面已经达到GPT-4模型95-100%的水平,现场文档显示,该模型逻辑思维能力目前为GPT-4的69%。最重要的是,它只使用了1.8万亿参数,即GPT-4方案9%的算力,却达到了GPT-4 90%的效果。

打开网易新闻 查看更多图片

具体来说,主要包括大语言、多模态、具身智能、生物计算四个方面的12 个产品:

首先是大语言模型(LLM)系列。

针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。该模型与百亿级的52B版本,千亿级的102B版本共同构成Tele-FLM系列模型。Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。

针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE(BAAI General Embedding)系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识的调用。BGE综合能力显著优于OpenAI、Google、Microsoft、Cohere等机构的同类模型。目前,BGE模型系列下载总量位列国产AI模型首位,并被HuggingFace、Langchain、Llama Index等国际主流AI开发框架以及腾讯、阿里、字节、微软、亚马逊等主要云服务提供商集成,对外提供商业化服务。

其次是智源多模态大模型。

智源研发了全球首个原生多模态世界模型Emu 3,采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。值得注意的是,Emu3在持续训练中,经过安全评估之后将逐步开源。

轻量级图文多模态模型系列Bunny-3B/4B/8B。为适应智能端侧的应用,智源研究院推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B,该模型系列采用灵活架构,可支持多种视觉编码器和语言基座模型。多个榜单的综合结果表明,Bunny-8B 的多模态能力可达到 GPT-4o 性能的 87%。目前,Bunny 模型参数、训练代码、训练数据已全部开源。

再次是智源具身大模型和生物计算模型。

智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果,在具身智能通用抓取能力方面,针对跨任意形状和材质的泛化难题,智源率先突破95%的真机实验成功率,从而实现了全球领先的商业级动作执行水平。

同时,智源还公布分级具身大模型系统之能反思、可随机应变的铰接物体操作大模型系统SAGE,分级具身大模型系统之全球首个开放指令六自由度拿取放置大模型系统Open6DOR,全球首个端到端基于视频的多模态具身导航大模型NaVid,以及通用计算机控制框架Cradle等。

另外,智源生物计算大模型方面,智源研究院研发了全原子生物分子模型OpenComplex 2,是世界领先的大分子结构预测模型,能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物;而且,智源研究院构建的全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿真时间比小于1,位于国际领先水平。

最后是FlagOpen大模型开源技术基座的2.0升级,包括布局模型、数据、算法、评测、系统五大版图。

其中,王仲远重点谈及支持异构算力集群的大模型“操作系统”FlagOS,他称,FlagOS的推出将为中国新一代智算中心的建设提供助力,显著提升智算集群的能力水平,加速大模型产业的发展;同时,首个千万级高质量开源指令微调数据集 InfinityInstruct,高达300万条指令数据集,性能超越了Mistral、Openhermes等的SFT数据能力,而提升到千万级数据量级训练的对话模型能力可达GPT-4水平;另外,智源还公布支持多元AI异构算力的并行训练框架FlagScale实现首次突破,面向大模型的开源Triton算子库,FlagEval大模型评估全面升级等。

打开网易新闻 查看更多图片

智源研究院院长王仲远

6月13日的群访对话交流中,王仲远对钛媒体 App表示,如果目标是实现AGI(通用人工智能),sora所实现的DiT一定不是最终极的技术路线,因为目前DiT模型仍是“单一跨模态“,及将独立的文生图、文生视频、图生视频模型整合,而不是真正的跨模态,自回归将是多模态的终极答案。不过,目前探索自回归多模态技术最大的一个挑战是算力,至少需要单一集群万卡的规模。

王仲远透露,目前智源研究院也需要更多算力和资金支持,预计下半年能有更多的多模态进展公布,他同时呼吁国内给予类似的原生创新更多包容。“OpenAI推出ChatGPT爆火是一个结果,更多默默无闻的科研人员在做原始性创新,我们现在就押注对多模态技术路线的判断并集中资源做核心技术突破,原始创新非常难,要尊重科学规律,也要接受失败的可能性。“

早前接受钛媒体 AGI 独家对话中,王仲远则强调,智源非常愿意去为中国的 AI 产业探索未来、可能的技术解决方案,我们可以试、我们可以去选择做前期的探索,有可能会失败,但这恰恰为中国科学探索贡献了自己的失败和经验,这是很好的科学研究。(详见钛媒体 AGI 前文:《独家对话智源研究院院长王仲远:中国AI发展不会被阻碍|钛媒体AGI》)

(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)