研究人员构建AI多模态搜索系统，助力提升向量数据库的存储能力

在深度学习时代，大模型引领了新的潮流。其波及的范围之广、影响之深刻，不仅改变了媒体的生产方式和交互方式，甚至影响了科研范式。

与此同时，深度学习从单一任务迈向统一任务、从单模态迈向多模态的发展速度，也因为大模型的能力取得了显著进步。

正因此，统一的音视频多模态模型，也就显得比以往更加重要。

在基础模型迅猛发展的今天，AI 应用也在井喷式发展，“AI-native” 这一名词也在各种场合被反复提及。

它指的是将现有技术使用大模型的方式重新覆写一次，实现“那些之前不能做，但是如今软件和硬件升级之后就可以做”的应用。

最经典的例子便是基础网络设施的升级，流量费用的大幅度下降，满足了人们观看和分享短视频的需求。

同样的道理，在 AI 技术日新月异发展的同时，是否也有一些潜在需求等待释放出来？

这背后隐藏着技术和需求的辩证观点：即技术可以催生需求，需求也可以促进技术迭代。

带着 “AI-native” 这样一个问题，前商汤科技研究院研究员骆继祥开始思考一些更底层的 AI 问题，并关注到了向量数据库的迅猛发展。

图 | 骆继祥（来源：骆继祥）

在近期一项研究中，他从存储和搜索这两个基础技术出发，在保证多模态数据压缩性能的前提下，进一步提高了多模态数据的搜索性能，从而构建出一个 “AI-native” 的多模态搜索系统。

研究中，他先是在神经网络的帮助之下，来学习非结构化数据的分布，继而利用这些分布进行无损和有损的数据压缩。

期间，他结合向量数据库搭建了一套存储和搜索的系统。完成搭建之后，他发现将压缩特征直接用来搜索，其效率会大大折扣。

不仅无法准确搜索到对应的图，而且计算量也会增加。于是，他通过桥接两类 embedding，解决了这一问题，并验证了本次系统的有效性。

其中，存储是为了节省硬盘甚至节省带宽费用，搜索则天然地和商业活动有着紧密联系。

因此，在多模态系统之下，通盘考虑存储和搜索在大模型中的应用，必然蕴含着一定的商业潜力。

其一，本次成果有望实现向量数据库的迭代。

事实上，向量数据库很早之前就已出现。但是，在大模型爆发之后，向量数据库的数量开始猛增。

其中，OpenAI 的 ChatGPT 背后使用的向量数据库便是由美国公司 Pinecone 提供的。

而在本次研究之中，通过融合多模态来打造搜索系统，有望促进向量数据库的迭代，使其在保证搜索精度的前提下，让存储能力得以提高。

其二，本次成果可以改进现有的图像搜索系统，简化原有的搜索流程。

同时，能够统一图像媒体存储库和其对应的 embedding 库，让图像提取 embedding 的过程变为图像压缩和图像存储的过程，从而简化对应的计算量。

而当前基于 AI 的图像压缩性能，已经远超 JPEG 等传统算法，因此其存储效率也能得到极大的提升。

此外，对于图像压缩过程来说，要尽可能地保证图像的全部语义信息。而这个过程本身也可以提高图像搜索的精度。

当然，本次成果也有望开启一个更加精准的多模态搜索市场，比如基于图像中的物体、实例、动作、或其他语义来进行精准搜索，从而让图像搜索能够更好地和人类意图对齐。

图 | 向量数据库的趋势（https://db-engines.com/en/ranking_trend/vector+dbms）

日前，关于本次研究的相关论文以《可压缩和可搜索：基于学习图像压缩的人工智能原生多模态检索系统》（Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression）为题发在 arXiv[1]，骆继祥是唯一作者。

图 | 相关论文（来源：arXiv）

而在后续，他会通过增加相关实验，为本次成果提供更充足的证明。也会进一步研究图像语义在搜索和压缩中的作用和表现。

参考资料：

1.https://arxiv.org/pdf/2404.10234

排版：刘雅坤

01/ 科学家提出纯机械计算机新理论，提升有限机械系统的运算能力，为智能超材料开辟新思路

02/ 孙立成院士团队开发新型阴离子交换膜，大电流下稳定运行2400多小时，或大幅度降低制氢成本

03/ 澄清170多年学术争论：北大团队获得六角冰表面原子级分辨图像，刷新对于冰表面的传统认知

04/ 科学家研发种子筛选AI模型，预测准确性超过90%，实现高效数字化的抗病品种筛选

05/ 两百多年的物理效应迎新进展：中美联合团队发现低温莱顿弗罗斯特效应，在130℃下观察到液体悬浮

研究人员构建AI多模态搜索系统，助力提升向量数据库的存储能力

LangChain创始人： AI下一次浪潮将由AI Agent主导

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

GPT-4只是个超级搜索引擎？哲学家们表示不服

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

纯太阳能电车何时能实现，马斯克怎么看？

从零手搓MoE大模型，大神级教程来了

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大疆前高管带6人创业，做出了类目Top1的割草机器人

国产机器人也会空翻了！打破限制，世界首款！

被AI量产的短视频营销号气疯了，于是，我也做了一个

钉钉AI搜索来了！集齐大模型“七龙珠”，AI助理推出多Agent协同功能

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

LLM惊现篡改代码获得奖励，欺骗人类无法根除逆转！Anthropic新作揭露惊人真相

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

研究人员构建AI多模态搜索系统，助力提升向量数据库的存储能力

LangChain创始人： AI下一次浪潮将由AI Agent主导

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

GPT-4只是个超级搜索引擎？哲学家们表示不服

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

纯太阳能电车何时能实现，马斯克怎么看？

从零手搓MoE大模型，大神级教程来了

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大疆前高管带6人创业，做出了类目Top1的割草机器人

国产机器人也会空翻了！打破限制，世界首款！

被AI量产的短视频营销号气疯了，于是，我也做了一个

钉钉AI搜索来了！集齐大模型“七龙珠”，AI助理推出多Agent协同功能

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

LLM惊现篡改代码获得奖励，欺骗人类无法根除逆转！Anthropic新作揭露惊人真相

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪