在深度学习时代,大模型引领了新的潮流。其波及的范围之广、影响之深刻,不仅改变了媒体的生产方式和交互方式,甚至影响了科研范式。

与此同时,深度学习从单一任务迈向统一任务、从单模态迈向多模态的发展速度,也因为大模型的能力取得了显著进步。

正因此,统一的音视频多模态模型,也就显得比以往更加重要。

在基础模型迅猛发展的今天,AI 应用也在井喷式发展,“AI-native” 这一名词也在各种场合被反复提及。

它指的是将现有技术使用大模型的方式重新覆写一次,实现“那些之前不能做,但是如今软件和硬件升级之后就可以做”的应用。

最经典的例子便是基础网络设施的升级,流量费用的大幅度下降,满足了人们观看和分享短视频的需求。

同样的道理,在 AI 技术日新月异发展的同时,是否也有一些潜在需求等待释放出来?

这背后隐藏着技术和需求的辩证观点:即技术可以催生需求,需求也可以促进技术迭代。

带着 “AI-native” 这样一个问题,前商汤科技研究院研究员骆继祥开始思考一些更底层的 AI 问题,并关注到了向量数据库的迅猛发展。

打开网易新闻 查看更多图片

图 | 骆继祥(来源:骆继祥)

在近期一项研究中,他从存储和搜索这两个基础技术出发,在保证多模态数据压缩性能的前提下,进一步提高了多模态数据的搜索性能,从而构建出一个 “AI-native” 的多模态搜索系统。

研究中,他先是在神经网络的帮助之下,来学习非结构化数据的分布,继而利用这些分布进行无损和有损的数据压缩。

期间,他结合向量数据库搭建了一套存储和搜索的系统。完成搭建之后,他发现将压缩特征直接用来搜索,其效率会大大折扣。

不仅无法准确搜索到对应的图,而且计算量也会增加。于是,他通过桥接两类 embedding,解决了这一问题,并验证了本次系统的有效性。

其中,存储是为了节省硬盘甚至节省带宽费用,搜索则天然地和商业活动有着紧密联系。

因此,在多模态系统之下,通盘考虑存储和搜索在大模型中的应用,必然蕴含着一定的商业潜力。

其一,本次成果有望实现向量数据库的迭代。

事实上,向量数据库很早之前就已出现。但是,在大模型爆发之后,向量数据库的数量开始猛增。

其中,OpenAI 的 ChatGPT 背后使用的向量数据库便是由美国公司 Pinecone 提供的。

而在本次研究之中,通过融合多模态来打造搜索系统,有望促进向量数据库的迭代,使其在保证搜索精度的前提下,让存储能力得以提高。

其二,本次成果可以改进现有的图像搜索系统,简化原有的搜索流程。

同时,能够统一图像媒体存储库和其对应的 embedding 库,让图像提取 embedding 的过程变为图像压缩和图像存储的过程,从而简化对应的计算量。

而当前基于 AI 的图像压缩性能,已经远超 JPEG 等传统算法,因此其存储效率也能得到极大的提升。

此外,对于图像压缩过程来说,要尽可能地保证图像的全部语义信息。而这个过程本身也可以提高图像搜索的精度。

当然,本次成果也有望开启一个更加精准的多模态搜索市场,比如基于图像中的物体、实例、动作、或其他语义来进行精准搜索,从而让图像搜索能够更好地和人类意图对齐。

打开网易新闻 查看更多图片

图 | 向量数据库的趋势(https://db-engines.com/en/ranking_trend/vector+dbms)

日前,关于本次研究的相关论文以《可压缩和可搜索:基于学习图像压缩的人工智能原生多模态检索系统》(Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression)为题发在 arXiv[1],骆继祥是唯一作者。

打开网易新闻 查看更多图片

图 | 相关论文(来源:arXiv)

而在后续,他会通过增加相关实验,为本次成果提供更充足的证明。也会进一步研究图像语义在搜索和压缩中的作用和表现。

参考资料:

1.https://arxiv.org/pdf/2404.10234

排版:刘雅坤

01/ 科学家提出纯机械计算机新理论,提升有限机械系统的运算能力,为智能超材料开辟新思路

02/ 孙立成院士团队开发新型阴离子交换膜,大电流下稳定运行2400多小时,或大幅度降低制氢成本

03/ 澄清170多年学术争论:北大团队获得六角冰表面原子级分辨图像,刷新对于冰表面的传统认知

04/ 科学家研发种子筛选AI模型,预测准确性超过90%,实现高效数字化的抗病品种筛选

05/ 两百多年的物理效应迎新进展:中美联合团队发现低温莱顿弗罗斯特效应,在130℃下观察到液体悬浮

打开网易新闻 查看更多图片