打开网易新闻 查看更多图片

头图由天工AI生成

随着中国加速研发 AI 大模型技术,追赶美国,如今已迎来新的节点。

北京时间4月18日,Meta推出了新版开源大模型Llama 3,并推出了8B和70B的预训练和指令微调版本,在众多性能上都大幅超越了Llama 2。Meta官方还表示,公司后续还将推出模型参数超过400B(4000亿)的更大版本Llama 3。

然而,就在4月17日,国内AI公司昆仑万维就已正式推出了4000亿参数的“天工3.0”基座开源大模型,成为全球最大的开源MoE(混合专家)大模型。

相较于上一代,天工3.0的模型技术知识能力提升超过20%,数学、推理、代码、文创能力提升超过30%,多模态性能超越GPT-4V。

同样在4月17日,昆仑万维还宣布,中国首个音乐SOTA(领域最佳水准)模型“天工SkyMusic”音乐大模型也正式开启公测,综合体验远超于风靡美国的 AI 音乐生成平台Suno V3。

中国 AI 大模型赛道正迎来“ChatGPT时刻”。

(SkyMusic综合性能评分超越Suno V3,成为最新音乐大模型SOTA)

4月16日沟通会上,昆仑万维董事长兼CEO方汉对钛媒体App编辑表示,“天工3.0”开源模型是面向C端产品提供支撑的底座大模型,拥有非常强的技术动力,且开源模型是有一定商业模式的。另外,在B端,昆仑万维会提供垂类大模型商业服务。

“对于天工SkyMusic,我们应该会一直保持免费对于C端提供服务,这个是没有任何问题的。当然如果有专业人士需要专业定制,我们也可以提供服务。”方汉称。

从一年前的追赶、学习OpenAI,到如今在 AI 音乐生成领域全面创新和超越,昆仑万维技术和市场双管齐下,“All in AGI 与 AIGC”的战略正在产生巨大效果,推动 AI 科技与互联网的跨越式发展。

至此,一个完整的AI大模型技术与应用生态正在成型。

三轮 AI 热潮下,2024年迎来基础大模型的关键之年

早在1956年夏天,计算机科学家约翰·麦卡锡(John McCarthy)等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语,被认为标志着 AI 技术的正式诞生。

打开网易新闻 查看更多图片

之后半个世纪当中,计算机技术飞速进步,AI 也影响了全球经济和社会发展。

直至今日,全球共经历了三次 AI 浪潮。前两次 AI 浪潮中,所有人期盼的十年“AI 效应”都如泡沫般破灭。不管是因为芯片“摩尔定律“速度跟不上 AI 的算力要求,还是因为数据量不够、算法不强、商业化不如预期,均让我们对AI发展都保持长期质疑的态度。

当下,我们终于迎来第三次 AI 浪潮。这一次,AI 算法、算力、数据“三驾马车”同步突破。

此次 AI 浪潮爆发的标志性事件有三个:一是1997年,IBM “深蓝”击败国际象棋大师卡斯帕罗夫;二是2016年,谷歌DeepMind的“阿尔法狗”(AlphaGo)击败了韩国围棋世界冠军李世乭,标志着 AI 技术的爆发拐点;三是2022年,AI 聊天机器人ChatGPT的推出,引发全球新一轮 AI 热潮。

演化经济学家卡洛塔·佩雷斯(Carlota Parez)在《技术革命与金融资本》书中曾提出从第一次工业革命以来,每两次重大技术革命的间隔基本都在五十年左右。随着旧技术革命红利的耗尽,继续延续使用其成果的收益就会大幅下降。

相比之下,引入全新技术的收益则会上升,而新的技术革命正驱动全球经济增长。距离2022年佩雷斯在书中提到的上一次技术革命——1971年英特尔推出全球第一款微处理器,已经恰好过了五十多年,世界正处在新旧科技革命的临界点。

当前,全球各国都纷纷将更多资源投注到了下一个技术革命关键点——AI,尤其是生成式 AI。甚至说,AI 已经成为“国力”的象征。

昆仑万维成立于2008年,经历了互联网、移动互联网发展时代,曾是出海平台领域的龙头,如今全面加注通用人工智能(AGI)赛道。

方汉表示,早在2020年,昆仑万维集团就开始进入文本大模型的预训练工作,并于2022年12月发布了中国首个13B(130亿)参数级开源文本大模型,是在ChatGPT爆发后最快推出国内大模型产品的企业。

到了2023年,大模型军备竞赛开启,昆仑万维“天工”也全面“狂飙”:

  • 4月17日,天工1.0发布,是国内首个对标ChatGPT双千亿级大模型;

  • 8月23日,昆仑万维公布国内首个AI搜索产品——天工AI搜索;

  • 今年2月6日,国内首个在线提供服务的MOE大模型“天工2.0”发布。

如今,在“天工”大模型发布一周年之际,昆仑万维终于带来了全新的最强模型天工3.0系列。

方汉坦言,2024年是底座大模型之年。“大家知道 AI 底座大模型是 AIGC 坚实的基础,尤其是文本大模型。文生图、文生音乐和文生视频(这些 AIGC 模型)的能力基础都是文本大模型。如果文本模型能力不够强,AIGC 能力就会受到很大限制。我们的 4000 亿大模型是给我们所有的面向 C 端的产品提供支撑的底座大模型。我的底座大模型做得越好,我的音乐、游戏、视频以及动漫产品就会做得更好。所以我们做底座大模型是有非常强的动力的。”方汉表示。

国内性能最强音乐AIGC模型,秒级生成95秒歌曲

天工3.0的核心主要有两点:中国首个音乐AIGC的SOTA模型;4000亿参数、全球最大规模的开源MOE大模型。

首先谈音频模型。

据美国风投机构a16z上月发布的生成式AI产品Top 100报告,ChatGPT、Gemini等通用内容生产应用仍占据消费级AI应用大头。与6个月前的排名相比,有两个新类别首次进入排行:音乐和生产力。

就内容形态来说,音频内容是相比文本和图片更好理解人类情感的方式。众多落地场景之中,音乐创作也成为普罗大众最易上手和感受到趣味性的AIGC场景。另外,对于昆仑万维这类AI公司而言,这是一个将自己推向C端市场、获得大众认知的有利且重要机会。

目前,AI 音乐生成有两大技术路径,包括符号音乐生成路线、大模型音乐音频生成路线。天工SkyMusic采用后者,通过直接学习并生成音频波形,而不是采用符号音乐生成路线来生成乐谱。这种方式能够实现乐器、人声、旋律、音量、音符等元素的一体化端到端生成,为用户带来更为直观且便捷的音乐创作体验。

然而,这种方式不仅艰难、成功经验稀缺,还需要高昂的算力和资金,因此业内做的人非常少。而且过去很多AI音乐研究都集中在无人声的BGM领域,业界几乎没有针对人声Song赛道的有效解决方案。

而天工SkyMusic,就是在这两个业界尽快空白的领域取得了极大突破,大幅提高了AI音乐生成大模型的表现,开创了国内音乐音频生成大模型的成功案例。

具体来说,天工SkyMusic采用与Sora类似的模型架构,包含三大核心模块——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer负责谱曲,学习Music Patches的上下文依赖关系,同时完成音乐可控性;DiT负责演唱,通过LDM(Latent Diffusion Model)让Music Patches被还原成高质量音频。

在SOTA模型排行中,与海外顶尖的AI音乐大模型Suno V3进行横向测评,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

值得注意的是,天工SkyMusic是音乐AIGC领域罕见公开技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图,成为业内对“音频路线+人声Song路线”的重要技术参考。

天工SkyMusic发布后,钛媒体App编辑第一时间参与体验。

体验中发现,相较于行业中的同类产品,天工SkyMusic基于天工3.0四千亿级MOE基础大模型,拥有更多产品优势。首先它支持示例音源生成音乐,用户可以选择“天工SkyMusic”资料库中现有的参考音乐,也可以上传自有音乐,不仅可以生成风格、唱腔类似的歌曲,还能给予用户挥洒创意的空间,让用户创作出更加丰富多彩的音乐作品。

这是钛媒体App编辑通过天工SkyMusic创作的歌曲,点开就是浓浓的摇滚风。它还支持创作说唱、民谣、放克、古风、电子等多种音乐风格,强化音乐创作生成的多样性。

另外,得益于对全球最大2000万首歌曲数据集的深度学习训练,天工SkyMusic成功摆脱了传统音乐AIGC产品常见的“AI味”。它生成的中文人声发音纯正,没有杂音干扰。不仅如此,它还拥方言歌曲生成能力,能够演绎包括粤语、四川成都方言、北京方言、上海方言在内的多种中文方言歌曲,并灵活运用颤音、歌剧唱腔等各种演唱技法,极大丰富了音乐创作的表现力。

钛媒体App编辑编辑生成的这首《Hi Baby》歌曲,通过几句歌词,就能轻松演绎一首95秒的英文歌曲,大幅降低音乐创作的门槛,让每个用户都能够更加容易创作属于自己的旋律和歌曲,从而凸显出天工SkyMusic强大的技术能力。

虽然尚处于起步阶段,但天工SkyMusic已经让很多用户感受到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技术架构公开,也体现了其对开源社区生态、产业共同发展的重视。预计天工SkyMusic将成为行业中最重要的全民音乐创作工具之一,有望推动建立属于中国的 AI 音乐创作者生态。

然而,天工SkyMusic仅仅是昆仑万维在迈进AGI时代的第一站。

自天工3.0发布以来,这款全球最大规模的开源MoE(多专家混合)大模型便引发业界广泛关注,其不仅拥有超越Grok模型的4000亿参数规模,并且在四大关键能力上实现了全面跃升。

具体来说,首先,天工3.0基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4个方面大幅提升,并且在MMBench等多项权威多模态测评结果中超越GPT-4V。同时,基于模型能力的提升,天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能,以及新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能,可以高效地完成产业分析、产品对比等各类复杂需求。

在演示中,研究模式下,天工3.0能够围绕简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图等,例如,钛媒体App编辑让天工3.0研究“OpenAI发展历程”。在全网搜索后,它能以分段提炼等形式呈现搜索结果,并自动总结大纲、绘制思维导图。

打开网易新闻 查看更多图片

而在增强模式中,“天工3.0”能够针对用户的复杂Query进行拆解、细化,通过追问、信息理解与补全,使其在自然语义理解方面性能更强,更好地面对不确定性知识;同时,在图像生成方面,“天工3.0”的改图扩图能力取得突破,可以让它绘制一张风景图,并逐步在图中增加新的物品或元素。

如今,对于用户而言,“天工3.0”不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景,也适用于内容创作、教育培训、智能搜索、语音合成、图像和音乐生成等娱乐场景。学生党、打工人可以利用天工3.0的研究模式和增强模式,通过简单的查询获得全面而精炼的资料,文献搜集、资料汇总等所需的时间大幅缩短,提升工作学习效率。

简单来说,“天工3.0”现已成长为人类工作与生活的好“伙伴”。

根据现在的进展,方汉相信,所有AIGC技术将会在两三年后达到一个足够可用的高度。

方汉向钛媒体App编辑表示,未来,大模型的发展将呈B端碎片化,C端免费化,而C端+免费可能成为大模型落地的主要路径。在互联网时代,谷歌、微软、百度、阿里等都是靠这个逻辑成为互联网巨头,同样的道理也将延伸到大模型时代。

“由于大模型对行业数据的需求,加之数据已经被分割在B端的不同碎片,很难有一家企业能够拿到全部行业的数据,导致B端碎片化;同时,中国用户的免费习惯是非常明显的,所以为C端用户提供服务的企业必然是以免费模式为主。”方汉认为,C端用户上限高达80亿,市场前景巨大,而要做到免费,AI UGC(用户生产内容)平台是一个好的商业模式。

方汉强调,移动互联网时代“免费+to C”的模式依然适用于AI时代。只有“免费+to C”才会产生AI时代的巨头。这是目前最合适的商业模式,也最容易盈亏平衡。

“到2035年 AGI 终将实现”

昆仑万维从2020年开始布局AIGC和大模型领域,至今已积累近四年的相关工程研发经验,且研发投入巨大。

根据昆仑万维2023年第三季度报告,去年前9个月公司研发费用达6.2亿元,同比增长28.18%。同时,公司十分重视开源生态,天工大模型在开发过程中也得到了开源社区上百位AI科学家的助力。

“目前我们分成三大业务板块,其中最重要的板块就是AGI与AIGC业务。作为一家海外互联网平台型企业,我们为什么会介入大模型或者AGI和AIGC技术方向?我们是以网游题材上市的,上市之后我们进行了转型,在海外大力做平台型业务,经我们从头孵化的大概千万级别DAU的互联网平台有4—5家左右,全部都与内容和社交赛道相关。所以我们一直对于内容生产领域的革新非常关注。在2020年GPT-3发布之后,我们非常敏锐地意识到了这可能是内容生成领域颠覆性机会。”方汉曾表示。

2023年4月,昆仑万维提出“All in AGI和AIGC”战略,不局限于单一的产品或技术,而是构建一个完整的AI生态系统,逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵。

其中,AI大模型和AI搜索作为底座,是所有AIGC能力的基础,音乐、视频、社交、游戏等方向则是昆仑万维在AGI道路上的探索,体现了其AI UGC平台商业模式。

2024年1月,昆仑万维集团正式发布面向未来的全新使命、愿景和价值观:“实现通用人工智能,让每个人更好地塑造和表达自我”。

昆仑万维在愿景中称,“我们深信,到2035年左右,通用人工智能(AGI)终将实现,人工智能将拥有,并超越人类的理解、学习、应用、甚至工作的能力,这将极大地推动社会的繁荣。”

事实上,为了做好大模型,昆仑万维做了很多准备。

在算力层面,昆仑万维有近万卡的训练资源,足够支撑训练下一代基于多模态的MoE大模型以及视频生成大模型。在技术上,为了与业内最先进的技术保持同步。

方汉向钛媒体App编辑坦言,他每周要阅读3~4篇技术论文,2023年一共阅读了200多篇论文;还会在一线写代码,写prompt,他写prompt的能力可能超过公司90%的同事;公司所有的算法博士,几乎都是方汉亲自面试的。

在应用层,昆仑万维的产品矩阵目的就是要打造一个综合AI UGC平台。

针对开源商业模式,方汉认为,在软件行业,开源一直是一个很有争议性的话题,“收取服务费”是软件行业发展早期的方式,早期开源玩家如MongoDB等通过SSPL产品授权协议开创了新的商业模式,同时开源也成为了ToB企业的市场推广手段之一。“开源模型与闭源模型是一个生态的组成部分,不是谁取代谁,而是一个互补关系,都会有自己的生存空间。”

对于模型性能,方汉认为,开源模型与闭源模型的差距已经从落后2年以上,追到仅落后4—6个月了,这证明了两者的差距是在缩小而非加大。另外,开源模型实际上是一种生态构建器,更有利于满足于用户的长尾需求。

(图片来源:钛媒体App编辑拍摄)

如今,昆仑万维已经打开了AGI这个“未来之门”,以技术促增长,做长期有价值、难而正确的事,且以开源、开放的生态迎接即将到来的 AGI 时代。

“公司成立15年来,我们一直在创业,每一天都是创业的状态。今天的我们,迎来了15年来最激动人心的创业状态,因为我们走在科技创业的最激动人心的道路上,但创业精神我们一直从未改变;我们要坚决打掉冻土层,做难而正确的事情。”昆仑万维创始人周亚辉表示。

周亚辉坦言,我们当前处在充满不确定、不确定、复杂和模糊的时代。随着AGI加速发展,以及我们认知的不断迭代,我们对未来的展望也在不断发生变化。未来三十年,人类要从感知线,变成表达线,整个人类社会在自我表达方面要增加1000倍。创作和自我表达在过去很困难,因为工具门槛高,而未来30年是自我表达的30年,昆仑万维要用 AI 把人类创作的门槛降的足够低,让人们更充分地实现自我表达。

“我们不追求成为一家‘大而全’的公司,而是希望成为一家‘小而大美’的公司,依靠强大的产品力,打动用户,给世界带来美好的改变。”昆仑万维的目标是,实现通用人工智能,让每个人更好地塑造和表达自我。

(本文首发于钛媒体App,作者|林志佳)