打开网易新闻 查看更多图片

新智元报道

编辑:编辑部 HYZ

【新智元导读】大模型下一个突破口在哪?商汤「日日新」原生融合大模型一举拿下双料冠军,给出了最好的答案。一个模型精通「看」与「想」,原生多模态融合让AI迈入「大一统」新纪元。

大模型发展到今天,下一步该走向何方?

就在刚刚,商汤给出了答案——原生融合模态!

最近的CES大会上,英伟达提出能理解世界的「世界模型」Cosmos,能够将文本、图像、视频作为输入。

打开网易新闻 查看更多图片

英雄所见略同,凭借着十年的深耕和AI赋能场景的经验,商汤也认为,原生融合是世界模型的必经之路。

或者说,多模态模型,是AI 2.0进行场景落地的必由之路。

就在最近,商汤「日日新」融合大模型上线了!

一个模型,就实现了多模态的融合。这是商汤率先在原生融合模态上取得了实质性突破,成为业界在这一领域的领跑者。

这一突破标志着,大语言模型和多模态模型普遍分立的现状,从此刻迈向真正意义上的「大一统」时代!

跨模态交互融合,通往世界模型的必经之路

一般来说,LLM的工作原理,是根据提示一次生成一个token产生输出。如果上下文变成了现实周围环境,大模型就需要从生成「内容token」转变为生成「动作token」。

随着AI落地到各种场景,它需要对多维度、多模态的信息有感知、理解、分析、判断,如果模型不能有效综合处理这些模态,模型的智能水平就会很容易达到天花板。

原生模态融合之所以如此意义重大,就是因为实现之后,模型就不止能达到「看」和「想」的水平,而是可以帮助人类解决更多复杂问题。

看不清的字体,数据图表里的信息,文学创作与撰写,举棋不定的游戏……现在,这些任务全部可以实现了。

实测:模型会看,还会想

接下来,不如看看「日日新」融合大模型在实际任务中的表现。

无论是非常难认的英文手写诗,还是俄文手写诗,它都能认出来。

上传一张几乎难以辨认的英文手写体诗歌,日日新竟毫不费力地读出了每一行诗。最关键的是,它还完整复刻原文的书写格式。

打开网易新闻 查看更多图片

再比如这张俄语诗歌,对于非母语的人来说,大脑只剩一片空白。

对于日日新来说,简直小菜一碟,不仅准确写出了原文诗句,还顺便把它翻译成了比较有意境的中文版。

打开网易新闻 查看更多图片

有了日日新,对于拍题写作业的学生们来说,简直就是绝绝子。

以往,你可能需要将题目打成文字,发给AI去解,而现在拍题、解答能够一并交给AI。

将附有自己解答的一道题图片上传,AI一眼就辨认出错误点。而且,它还能做到举一反三,完全就是学习神器。

打开网易新闻 查看更多图片

还有一些让人笑出鹅叫的小学生错题,日日新能完美解读答案好笑在哪里。

打开网易新闻 查看更多图片

爆笑小学生作文的幽默之处,它都能get。

打开网易新闻 查看更多图片

同样的,日日新非常精准指出了这幅画作的特点——捕捉到了狗的神态和动作。

对于如何提升画技,它又给出了行之有效的方式。

打开网易新闻 查看更多图片

再上传一张雕像的图片,它能识别出图中历史人物,并分析出对应的历史典故。

打开网易新闻 查看更多图片

甚至,它还能通过一张游戏的截图,分析出电脑的具体配置,从CPU、到GPU,再到内存,都逐一列了出来。

通过以上要点,它推断得出可以该电脑可跑大模型。

打开网易新闻 查看更多图片

上传一张图,日日新就能分析出代码实现了什么。

打开网易新闻 查看更多图片

一张国外网友制作的表情包,日日新也能够准确领会图中的要点。

它认为,人类正在AGI的爬坡上,若要实现真正的AGI,还需要更多研发和工作。对于另一个问题,也看懂了Sam Altman本人正逐步逼近ASI。

打开网易新闻 查看更多图片

再比如,这张大模型智商大比拼图中,数字杂多,我们想要了解o3和o1的智商如何,直接扔给日日新就可以了。

对于AI来说,一眼就看出了图中o3 IQ为157,o1 IQ为135。它还给出了这个评测的标准,以及Codeforces背景信息介绍。

当被问到更为发散的问题——o3与爱因斯坦谁更聪明时,日日新非常客观地看待这个问题。

若要从最直接的IQ结果来看,爱因斯坦比o3聪明些,但AI还综合考虑了智力评测的多个维度进行分析。

打开网易新闻 查看更多图片

而世界模型的到来,或许还意味着能对地球和人类更好的理解,找到和宇宙对话的方法。

打开网易新闻 查看更多图片

文科超越o1全球第一,理科国内金牌

同样,多方的评测结果也证明,商汤果然摸到了一条正确的路。

完成训练后的商汤「日日新」融合大模型,首次出战即拿下语言和多模态两个榜单的双料冠军。

打开网易新闻 查看更多图片

近日,SuperCLUE 2024年度榜单中,「日日新」融合大模型以68.3高分,与DeepSeek V3并列国内榜首,成为年度第一

打开网易新闻 查看更多图片

同时,在OpenCompass多模态评测中,同一款模型更是力压GPT-4o,独占鳌头

具体来看,SuperCLUE覆盖了29个国内模型,聚焦大模型的通用能力测评,由理科、文科和Hard三大维度构成。

而此次获得68.3高分的商汤「日日新」融合大模型,直接超越了Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp。

令人印象深刻的是,「日日新」在各项能力上表现均衡,在三大维度上均处领先。

在文科任务上,它以81.8分位列全球第一,超越OpenAI的o1和GPT-4o-latest。

打开网易新闻 查看更多图片

而在理科任务上,它直接夺得了金牌,其中计算维度以78.2分位列国内第一并超过GPT-4o-latest。

打开网易新闻 查看更多图片

如此惊艳的表现,是否需要很高的成本呢?

好消息是,融合模态模型训练的成本也并不高。相比同样量级的LLM,训练成本也就是增加20%左右。

原因在于,这实际上是一个多阶段的训练,语言模式和多模态模式的训练合在了一起,因而只用了1.2倍左右的成本。

技术路线:原生融合多模态

深挖背后,离不开商汤在「原生融合多模态」——一条独特且富有前瞻性的技术发展路径上,取得的创新突破。

在大模型百舸争流的当下,各家都在积极布局多模态,但技术路径的选择却大不相同。

通常来讲,业内普遍采用了分离式架构,多模态和语言模型分步训练,然后再通过中间层实现功能整合。

从实际应用角度来考虑,语言只是信息的一部分,世界中很多信息可能是以图像、视频等形态存在的。

如果不能有效综合处理这些信息的话,那么这个模型的能力很快就会触及到天花板。

商汤认为,融合多模态是未来的一条必由之路,其技术最显著的特点是「单一模型,多模态融合」

直白讲,单一模型同时训练和处理多模态,成为一个原生的多模态模型。

这也就意味着,在一个统一的模型框架内,同时具备了处理文本、图像、视频、音频多种模态信息的能力。

值得注意的是,商汤选择的这条技术路线,与OpenAI、Anthropic、谷歌同频共振。比如,GPT-4o、Claude 3.5、Gemini 2.0都采用了类似的单一模型融合多模态的技术路径。

打开网易新闻 查看更多图片

正如商汤联合创始人、人工智能基础设施及大模型首席科学家林达华所言,这种策略的选择,带来了显著的优势——

首先,在训练成本方面,相较于分别训练两个模型的方案,融合多模态方案仅增加20%的训练成本,就能获得等效的能力

其次,这种一体化设计在处理多模态任务时,更为高效和自然。

那么,既然这条原生融合技术路线是必由之路,我们又该如何去实践它,至今没有具体方法论,也无人能效仿。

实际上,从去年年底开始,原生多模态大模型就逐渐成为业内探讨的重要方向。

然而由于数据和训练方法的局限,业内很多机构的尝试并不成功——多模态训练过程往往会导致纯语言任务,尤其是指令跟随和推理任务的性能严重下降。

在这个充满挑战的赛道上,商汤凭借其在CV领域十年深厚积累,给出了独一份解决之道。

他们独创性提出了两项关键技术——融合模态数据合成与融合任务增强训练。

融合模态数据合成

NeurIPS演讲上,Ilya曾当众宣布当前AI行业已达到「数据峰值」。无独有偶,马斯克最近直播中也称,「我们基本上已经把AI训练中能利用的人类知识都挖空了」。

互联网数据几近枯竭,早已成为屡见不鲜的话题。

打开网易新闻 查看更多图片

业界一致将希望寄托于「合成数据」身上,就比如,OpenAI曾被曝出用合成数据,来辅助训练下一代模型Orion;Anthropic利用Claude 3.5 Opus生成合成数据提升模型性能。

不仅如此,还可以从微软Phi系列模型中,可以看到合成数据的巨大潜力。

打开网易新闻 查看更多图片

最新Phi-4合成数据比例高达40%,而且增加合成数据训练epoch,比纯增加互联网数据,性能提升效果更明显

可以证明,合成数据是能够缓解数据不够的一种方法。

商汤在融合多模态技术路线最大的创新之一,便是「融合模态数据合成」。那么,他们是具体如何做到的呢?

在研究过程中,团队发现,当更多的数据和模态用一种有效和有机的方式融合在一起进行训练时,模型在不同环节和方向上都表现出更优的性能。

跟AI 1.0时代相比,这是很不一样的。当时,一个模型的能力非常有限,如果同时训练它做两件事情,可能两件事都做不好。

然而在大模型时代,在不同的场景都可以观察到——

相比单一模态(如单纯的语言或图文模式),多模态有机融合的模型在智能水平上有显著提升。

在越来越多的工作中,都可以观察到这种现象:随着更多的模态进行有机的融合,模型会涌现出更强的智能水平。

这种多模态技术在实践中的巨大潜力,已经在商汤绝影自动驾驶核心模型中得到了应用。

而在预训练阶段,商汤不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据

由此,团队就成功在图文模态之间建立起大量交互桥梁,使得模型基座对于模态之间的丰富关系掌握得更扎实,因而能更好地完成跨模态任务,提升了整体性能。

融合任务增强训练

在完成预训练之后,模型还要针对多项任务进行增强训练。

不难理解,只有融合模型对实际应用场景有了深刻洞察,在场景驱动下,才能实现落地开花。

就好比一个大学生,学了很多知识,在进入社会之前,需要一些实操磨练,才能真正走进岗位。

融合多模态模型也是如此,为此,商汤基于多年来对广泛业务场景的认知,构建了一系列跨模态任务。

具体涵盖了交互、多模态文档分析、城市场景理解、车载场景理解等等。

通过把这些任务融入到增强训练的过程,模型不仅被激发出强大的对多模态信息进行整合理解分析的能力,而且还形成了对业务场景有效的响应能力。

在这个过程中,模型就走通了应用落地反哺基础模型迭代的闭环。

只有真正做到多模态的交互与深度融合,才能让模型走向统一,也是通向世界模型的必经之路。

目前,基于「日日新」融合大模型,商汤已经在多个实际场景中取得了突破的成果。

扩展应用新维度

在很多B端应用、商业竞争上,商汤已经具备了较大优势。

在办公、金融领域,经常会用到很多复杂的多模态文档,比如表格、文本、图片、视频等,以及以上形式的融合。

那么,面对如此丰富复杂的信息,融合大模型就有了非常大的优势。

基于「日日新」打造的「办公小浣熊」,便能够高效处理多种格式的办公文档,智能分析复杂业务数据,还能提精准的信息提取服务。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

甚至许多已经在媒体上发布的图文并茂的文章,都会得到多模态的综合解读。

在前文已经提到的自动驾驶领域,原生融合模态模型就大有可为。

未来,乘客或司机可以靠语音去和车载智能体对话。智能体既能看到车里、车外的状态,感知各种信号,还能和人做文字模态的语音交互。

还有一个场景,就是视频交互

商汤已发布的日日新5o,就是基于视频实时交互的应用。人可以在一个视频的场景下,去跟机器交流,无论的语言还是画面,AI都需要结合在一起去理解。

协助城市治理、园区管理的场景中,原生融合模态模型也将提供极大的助力,为客户提供文字、图像、视频材料结合的回答。

去年10月,商汤CEO徐立公开了商汤接下来10年「大模型、大装置和应用」三位一体的整体战略

现在,多模态融合的大模型已经成为商汤AI 2.0的基座,承载了交互变革、提升生产力助手两个应用方向。

随着商汤把融合模态的技术路径整体走通,一个全新的想象空间已经打开。

未来,整个空间结构将会如何输入?跟LLM和推理能力将怎样结合?

走通了通道和方法论的商汤,必将探索的触角伸向更多范畴。

参考资料:

https://chat.sensetime.com/