所见即所得：多模态RAG正在向我们走来

作者 | 张颖峰

2024 年可以算得上是多模态大模型取得井喷的一年，5 月发布的 GPT-4o，让多模态大模型进一步走进了我们的视野，如果说在 2023 年，多模态的应用还停留在传统的简单图像搜索，到 2024 年，则真正开始了对多模态数据的理解。下图是 24 年涌现的多模态大模型代表，既有商业，也有开源。可以看到，从对图像的理解角度来看，2024 年已经取得了长足进步。

随之而来的，就是多模态 RAG，是否也会开始落地并产生价值？我们先来看看多模态 RAG 的都有哪些使用场景。所谓多模态 RAG 的概念并不稀罕，在 2023 年 RAG 概念刚火热起来不久，就有了多模态 RAG 的场景描述，例如针对个人相册，企业宣传素材的搜索需求，然而，这种搜索需求更多是把存在很久的向量搜索的使用场景如图像搜索、以图搜图等安插到了多模态 RAG 之上，并没有真正从业务角度来逐步挖掘多模态 RAG 的场景价值。随着 RAG 技术在 2024 年快速发展，更多的企业，已经把 RAG 看成是大模型在 B 端应用的标准配置。来自于企业内部的文档问答，已经解锁出大量使用需求和场景。在这些文档中，有相当一部分包含各类复杂的图表内容，它们本质上就是各种多模态数据，如何对这些数据进行有效问答，成了挖掘企业内部数据金矿的刚性需求来源之一。

这个流程中，得到的图片和表格，都属于典型的多模态数据，因此，采用相应的模型，将它们转成文本数据，就解决了对多模态数据的理解问题。从原理上来说，这样的技术也分为 2 代：

第二代则采用生成式模型，不同于流行的 LLM 采用的 Decoder Only 架构，基于 Transformer 的多模态生成式模型，通常采用 Encoder-Decoder 架构，Encoder 的输入端是各种图表，Decoder 的输出就是各类文本。

依托于这种广义的 OCR 技术，可以把一个多模态 RAG 系统变成一个标准的 RAG 系统。在我们的开源和商业版的 RAGFlow 中，分别基于这两类技术提供了相应的实现。

另一种解决方案，则直接依托于多模态模型本身，简称 VLM（Vision Language Model）。输入文字和图像，输出得到基于图像和文字内容理解得到的答案文字。

如前文所提到，VLM 在 2024 年取得了显著进展，它们已经大大超越了过去图像搜索这种简单的场景。我们先以 Google 在 7 月开源的 PaliGemma 为例，看看对一个复杂的多模态文档理解的效果【参考资料 1】。上传一张包含柱状图、饼图以及各类文本的复杂 PDF 截图，然后针对图表进行提问，可以看到，PaliGemma 给出了准确的回答。

而近期阿里开源的 Qwen2-VL-7B【参考资料 2】，也在视觉图像理解上达到了更好的效果。如何将这些 VLM 应用于针对大量企业内部 PDF 文档的多模态 RAG，同样是今年 7 月公开的 ColPali【参考资料 3】，则是一个堪称里程碑的工作。ColPali，全称叫 Contextualized Late Interaction over PaliGemma，是一个基于 PaliGemma 的延迟交互模型。PaliGemma 是一个结合了视觉和语言模型的混合模型，它使用 SigLIP 视觉编码器生成的图像块 (Image Patch) Embedding，并将这些 Embedding 输入到 Gemma 文本语言模型中，以获得上下文化的语言模型输出 Embedding。

而 ColPali 则在 PaliGemma 基础上添加了一个 Col Adaptor，它负责将 PaliGemma 的 Embedding 输出映射到一个更低维度（128 维）的向量空间，并采用延迟交互模型来计算文本和文档之间的相似度。所谓 ColPali 的"Col"，跟最知名的用于文本排序的延迟交互模型 ColBERT，是一个含义，它是用来在 RAG 系统中解决文档排序的一种标准方法的总称。也就是说，我们可以在任何模型基础之上来新增一个 Col Adaptor，同时辅之以训练的正负样本对数据，就可以得到各种 ColXX 模型，它们都是采用延迟交互模型，可以用来捕获查询和文档之间的上下文相似度。

随着 Encoder-Decoder 架构在工程上的渐趋成熟，Image Patch 的语义表达更加精细，多模态模型已经不再是未来，而是当下，以它为基础的多模态 RAG，也早已摆脱了图片搜索等上一代 AI，它们已经或者即将解锁企业内部的大量非结构化文档数据的深度理解，这将大大扩充 RAG 的使用场景，也大大增加大模型在企业端的应用价值。作为同时开发端到端 RAG 产品和下一代 RAG 配套数据库的我们，也在密切跟进相关领域的发展，不论是产品侧，还是模型以及 Infra 侧。

参考资料

1. https://www.shejiwd.com/spaces/big-vision/paligemma-hf

2. https://www.tsbxgq.com/spaces/GanymedeNil/Qwen2-VL-7B

3. ColPali: Efficient Document Retrieval with Vision Language Models.www.ruixingo.com/abs/2407.01449

4. MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations.www.bcygw.com/abs/2407.01523

所见即所得：多模态RAG正在向我们走来

库尔斯克“请俄入瓮”，美欧再送乌大礼包

网传北京一300人公司雇佣两个重度残疾人，一年为公司“挣100万”

史密斯28+11火箭主场双杀快船申京16+10+10哈登21+6

突然爆雷！展厅连夜搬空，有人交了80万元无法提车

被年轻人家里的“洗碗机用法”惊呆了！换个思路后，家务少一半

她已任上海虹口区领导

拜登：美国不支持“台湾独立”

张家界大庸古城试运营三年入驻店铺可查仅18家，日均购票人数不足20人，商家自称“苟延残喘”

闹大了！这究竟是福利还是负担？村民不缴医保都把基层急成啥样了

真好赚啊！泰森16分钟赚2000万美元＝梅西整个赛季的薪资

广东：强化对人员密集场所和重点部位巡逻防控

女子韩国旅游订房踩坑：每晚标价6万多未看清币种符号，回国后被扣6万元人民币

364元/斤！杭州刚刚上市！一口咬下去就是7块钱

泽连斯基：努力确保明年以外交手段结束俄乌冲突

王皓回应樊振东、马龙退出总决赛，并称“王楚钦状态起伏很正常”

浓眉40+12湖人拔刺4连胜詹姆斯15+16+12文班28+14

亚洲最大奥莱要来了！就在上海青浦，将于2026年竣工

俄飞行员：单枪匹马来，独自驾机回

悲催！网传中山一电器厂老板跑路，欠工资500万，欠供应商6000万

张玉宁回应伤情：脚踝还有点肿，跟日本再踢多少次都不会是0-7了

所见即所得：多模态RAG正在向我们走来

库尔斯克“请俄入瓮”，美欧再送乌大礼包

网传北京一300人公司雇佣两个重度残疾人，一年为公司“挣100万”

史密斯28+11火箭主场双杀快船 申京16+10+10哈登21+6

突然爆雷！展厅连夜搬空，有人交了80万元无法提车

被年轻人家里的“洗碗机用法”惊呆了！换个思路后，家务少一半

她已任上海虹口区领导

拜登：美国不支持“台湾独立”

张家界大庸古城试运营三年入驻店铺可查仅18家，日均购票人数不足20人，商家自称“苟延残喘”

闹大了！这究竟是福利还是负担？村民不缴医保都把基层急成啥样了

真好赚啊！泰森16分钟赚2000万美元＝梅西整个赛季的薪资

广东：强化对人员密集场所和重点部位巡逻防控

女子韩国旅游订房踩坑：每晚标价6万多未看清币种符号，回国后被扣6万元人民币

364元/斤！杭州刚刚上市！一口咬下去就是7块钱

泽连斯基：努力确保明年以外交手段结束俄乌冲突

王皓回应樊振东、马龙退出总决赛，并称“王楚钦状态起伏很正常”

浓眉40+12湖人拔刺4连胜 詹姆斯15+16+12文班28+14

亚洲最大奥莱要来了！就在上海青浦，将于2026年竣工

俄飞行员：单枪匹马来，独自驾机回

悲催！网传中山一电器厂老板跑路，欠工资500万，欠供应商6000万

张玉宁回应伤情：脚踝还有点肿，跟日本再踢多少次都不会是0-7了

史密斯28+11火箭主场双杀快船申京16+10+10哈登21+6

浓眉40+12湖人拔刺4连胜詹姆斯15+16+12文班28+14