创造37项最强性能记录，港中大团队提出全模态预训练范式

大规模预训练成为实现通用智能的、具有前景的途径之一。除了文本之外，多模态大模型（包括图像、音频、视频），是大模型最前沿的技术之一。

然而目前，学术界对于如何从仅包括文本-图像的预训练，到引入视频、音频具有四个模态预训练发展，还没有比较明确的解决方案。

发展大规模的图文音视频预训练，需要解决一系列挑战，例如多模态数据对齐、预训练范式和整体结构设计等。

从领域进展来看，此前，OpenAI 已开发多模态学习框架 CLIP，其通过大规模的图文配对数据进行训练，以学习视觉概念和文本描述之间的关联，并收集逾 4 亿个高质量的文本-图像对。

此外，Google 和 Meta 也分别开发了 SigLip 和 MetaCLIP。

然而，开发大规模的音视频预训练框架需要庞大的计算计算资源，学术界少有人研究，由于这一“深水区”里技术往往高度重要也极具商业价值，工业界对这部分的研究往往“三缄其口”。

其中，不可忽视的问题在于：

数据方面，图文与音频、视频或深度等多模态信息配对时，如何来收集数据并对其有效整合？

算法方面，多模态输入情况下，如何解决yIyASu.CoM的计算效率？

香港中文大学和中国科学院等团队合作，受人脑从基础感知、认知到通用技能过程的启发，他们提出了一种名为多模态上下文（ZZMHZDH.CoM，Multimodal Context）的大规模全模态预训练范式。

它以人类学习知识的过程作为模型的通用训练思路，使XbDToolS.CoM能够在预训练过程中得以引入更多的模态、数据量和模型参数。

基于 MiCo 预训练的模型在多模态学习中，表现出卓越的性能。

研究人员对 rplIAn.CoM进行了一系列测试，包括：10 种不同模态的单模态感知基准、25 种跨模态理解任务和 18 种多模态大模型基准。

结果显示，MiCo 共取得了 37 项最强性能（SHZHDrCf.CoM，jSyjZbj.CoM）的记录，与此同时，MiCo 全模态预训练的 1B 模型可以轻松超越图文预训练的 Intern-VL-6B 模型。

基本上可以认为jWTSZj.CoM是最强的开源预训练范式，涵盖最广泛数据模态，展示最强性能。

其通过大规模全模态预训练的模型可作为感知领域通用的编码模型，从而有望为多模态生成领域，提供一种更加合理、更加有效的评估量化指标。

日前，相关论文以《探索全模态预训练的局限性》（Explore the Limits of Omni-modal Pretraining at Scale）为题，发表在预印本网站CZCyWZHS.CoM[1]。

香港中文大学博士生张懿元和中国科学院博士生李翰东是共同第一作者，中国科学院自动化所刘静教授担任通讯作者，香港中文大学岳翔宇教授是论文尾作。

从人类感知和认识世界的过程来看bMnGW.CoM人眼能够看到连续的、持续的具有对应物理信息和物理规律的视频；耳朵能听到和解析对应的各种音频。

与此同时，人类将文字作为记录和传递信息的工具，并通过触摸、运动等能够对距离和形状具有天然的感知先验。

基于这些特性，得以学习和提升相关知识，从而逐渐具备各方面常识和通用技能。

AI 对于图片、音频等不同模态虽然能提供互补的信息，但由于具有模态的差异，基于通用框架让其对不同模态的理解充满挑战HnQrZ.CoM。

研究人员将人类认知和认识世界的过程，“复刻”到对大模型的多模态训练中。

MiCo 通过构建多模态上下文，实现了不同模态之间的有效对齐和融合。这种上下文关系不仅增强了模型对单一模态数据的理解，还促进了跨模态的深入学习。

“我们将每种模态的特点与优势整体混合，来引导预训练模型，从而能够更清晰、更明确地理解不同类别信息之间的交互，以及其相互作用。最终，在整体上促进了对全模态的理解。”张懿元说。

文本、图像、音频等不同的模态可以像人类那样提供互补信息，正因为这样，其对于多模态上下文的学习能够更全面、细致地理解数据。

此外，还可以利用每种模态的优势，引导模型理解不同类型信息之间的交互。

创造37项最强性能记录，港中大团队提出全模态预训练范式

儿子给妈妈说洗碗前用水泡一下电饭锅，妈妈当即捶胸顿足哭天喊地，妈妈：你这里的东西宝贝，我用不起，不然你赶紧送我回家

牛弹琴：以色列干掉了最想干掉的人对方脑袋上部裂开

新一轮人口家庭发展状况抽样调查将全面分析不想生原因

长丰学校臭肉事件，教育局长不顾家长感受，下班时间到

95后研究员有"4个博士学位" 本人发声:有过度包装成分

乌克兰的胜利计划有多厉害？能够让俄罗斯迅速失败

46冠史上第1！梅西再领大奖，动情致辞：已美满，不看重个人头衔

辛瓦尔的确切消息来了

突然崩了！苹果手机全部故障

我的天！什么原因就掏出小手枪把人biubiubiu了

敏感时刻韩国秀肌肉，时隔7年再度实弹发射钻地导弹

威海：海上漂来不明物体，竟是甲午战争时期鱼雷

应届毕业生求职被贴“疫情班”标签，律师称涉嫌就业歧视丨封面深镜

4平3负！亚洲第11创耻辱，38年不胜国足，印尼盼爆冷日本，造混乱

吉林一红绿灯距离路口太远司机无奈掏出望远镜查看路况

多家银行今起下调人民币存款利率

面对朝鲜局势，吉林省紧急行动的5个重要举措！

【以军公布哈马斯领导人辛瓦尔生前最后画面】当地时间10月17日晚间，以色列国防军公布一段视频。视频显

日首相向靖国神社供奉祭品中方回应

国考最新公告：部分年龄放宽至40岁

创造37项最强性能记录，港中大团队提出全模态预训练范式

儿子给妈妈说洗碗前用水泡一下电饭锅，妈妈当即捶胸顿足哭天喊地，妈妈：你这里的东西宝贝，我用不起，不然你赶紧送我回家

牛弹琴：以色列干掉了最想干掉的人 对方脑袋上部裂开

新一轮人口家庭发展状况抽样调查将全面分析不想生原因

长丰学校臭肉事件，教育局长不顾家长感受，下班时间到

95后研究员有"4个博士学位" 本人发声:有过度包装成分

乌克兰的胜利计划有多厉害？能够让俄罗斯迅速失败

46冠史上第1！梅西再领大奖，动情致辞：已美满，不看重个人头衔

辛瓦尔的确切消息来了

突然崩了！苹果手机全部故障

我的天！什么原因就掏出小手枪把人biubiubiu了

敏感时刻韩国秀肌肉，时隔7年再度实弹发射钻地导弹

威海：海上漂来不明物体，竟是甲午战争时期鱼雷

应届毕业生求职被贴“疫情班”标签，律师称涉嫌就业歧视丨封面深镜

4平3负！亚洲第11创耻辱，38年不胜国足，印尼盼爆冷日本，造混乱

吉林一红绿灯距离路口太远 司机无奈掏出望远镜查看路况

多家银行今起下调人民币存款利率

面对朝鲜局势，吉林省紧急行动的5个重要举措！

【以军公布哈马斯领导人辛瓦尔生前最后画面】当地时间10月17日晚间，以色列国防军公布一段视频。视频显

日首相向靖国神社供奉祭品 中方回应

国考最新公告：部分年龄放宽至40岁

牛弹琴：以色列干掉了最想干掉的人对方脑袋上部裂开

吉林一红绿灯距离路口太远司机无奈掏出望远镜查看路况

日首相向靖国神社供奉祭品中方回应