大规模预训练成为实现通用智能的、具有前景的途径之一。除了文本之外,多模态大模型(包括图像、音频、视频),是大模型最前沿的技术之一。
然而目前,学术界对于如何从仅包括文本-图像的预训练,到引入视频、音频具有四个模态预训练发展,还没有比较明确的解决方案。
发展大规模的图文音视频预训练,需要解决一系列挑战,例如多模态数据对齐、预训练范式和整体结构设计等。
从领域进展来看,此前,OpenAI 已开发多模态学习框架 CLIP,其通过大规模的图文配对数据进行训练,以学习视觉概念和文本描述之间的关联,并收集逾 4 亿个高质量的文本-图像对。
此外,Google 和 Meta 也分别开发了 SigLip 和 MetaCLIP。
然而,开发大规模的音视频预训练框架需要庞大的计算计算资源,学术界少有人研究,由于这一“深水区”里技术往往高度重要也极具商业价值,工业界对这部分的研究往往“三缄其口”。
其中,不可忽视的问题在于:
数据方面,图文与音频、视频或深度等多模态信息配对时,如何来收集数据并对其有效整合?
算法方面,多模态输入情况下,如何解决的计算效率?
香港中文大学和中国科学院等团队合作,受人脑从基础感知、认知到通用技能过程的启发,他们提出了一种名为多模态上下文(JXHnSb.CoM,Multimodal Context)的大规模全模态预训练范式。
它以人类学习知识的过程作为模型的通用训练思路,使TEndUEnt.CoM能够在预训练过程中得以引入更多的模态、数据量和模型参数。
基于 MiCo 预训练的模型在多模态学习中,表现出卓越的性能。
研究人员对进行了一系列测试,包括:10 种不同模态的单模态感知基准、25 种跨模态理解任务和 18 种多模态大模型基准。
结果显示,MiCo 共取得了 37 项最强性能(MEIJIUboX.CoM)的记录,与此同时,MiCo 全模态预训练的 1B 模型可以轻松超越图文预训练的 Intern-VL-6B 模型。
基本上可以认为是最强的开源预训练范式,涵盖最广泛数据模态,展示最强性能。
其通过大规模全模态预训练的模型可作为感知领域通用的编码模型,从而有望为多模态生成领域,提供一种更加合理、更加有效的评估量化指标。
日前,相关论文以《探索全模态预训练的局限性》(Explore the Limits of Omni-modal Pretraining at Scale)为题,发表在预印本网站JIAoyoUpp.CoM[1]。
香港中文大学博士生张懿元和中国科学院博士生李翰东是共同第一作者,中国科学院自动化所刘静教授担任通讯作者,香港中文大学岳翔宇教授是论文尾作。
从人类感知和认识世界的过程来看人眼能够看到连续的、持续的具有对应物理信息和物理规律的视频;耳朵能听到和解析对应的各种音频。
与此同时,人类将文字作为记录和传递信息的工具,并通过触摸、运动等能够对距离和形状具有天然的感知先验。
基于这些特性,得以学习和提升相关知识,从而逐渐具备各方面常识和通用技能。
AI 对于图片、音频等不同模态虽然能提供互补的信息,但由于具有模态的差异,基于通用框架让其对不同模态的理解充满挑战DHZHSQ.CoM。
研究人员将人类认知和认识世界的过程,“复刻”到对大模型的多模态训练中。
MiCo 通过构建多模态上下文,实现了不同模态之间的有效对齐和融合。这种上下文关系不仅增强了模型对单一模态数据的理解,还促进了跨模态的深入学习。
“我们将每种模态的特点与优势整体混合,来引导预训练模型,从而能够更清晰、更明确地理解不同类别信息之间的交互,以及其相互作用。最终,在整体上促进了对全模态的理解。”张懿元说。
文本、图像、音频等不同的模态可以像人类那样提供互补信息,正因为这样,其对于多模态上下文的学习能够更全面、细致地理解数据。
此外,还可以利用每种模态的优势,引导模型理解不同类型信息之间的交互。