全球首个全模态理解开源端模型：图文音啥都会！300%推理速度领先

允中发自凹非寺
量子位 | 公众号 QbitAI

全球首个端侧全模态理解开源模型来了！

在菜单里帮忙选奶茶，不在话下：

还能帮忙轻松提炼长语音，再也不用对着一串几十秒语音头皮发麻（doge）。

就在刚刚，无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni，不仅体积轻巧，速度飞快，更是一个多才多艺的全能选手，能够轻松处理图片、音频、文本三种模态数据。

在众多测评基准中，Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能。作为一个3B模型，综合性能表现甚至能超过34B模型。

具体来说，Megrez-3B-Omni采用了专为手机、平板等端侧设备量身定制的30亿参数黄金尺寸，主干网络参数规模更是仅有2.3B，精度超越了上一代14B模型，最大推理速度更是比同精度模型快达300%。

无问芯穹

，赞7

一起来看更多技术细节~

图像理解

在图像理解方面，Megrez-3B-Omni作为一个体积仅为3B的模型，其综合性能表现可以全面超过34B的庞然大物，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

与此同时，Megrez-3B-Omni 在场景理解、OCR等任务上也具有良好表现，能够准确洞察和分析任意比例尺寸图像中的场景内容，并高效地从中提取文本信息，且无论是模糊的印刷体还是复杂的手写字，都能够轻松识别。

不仅能理解手机屏幕上的信息，给定条件辅助商品挑选。

读取手写字体，一样轻松搞定：

文本理解

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni在没有牺牲模型的文本处理能力的前提下，将上一代14B大模型的优秀能力压缩至3B规模，显著降低了计算成本、提升了计算效率。

在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度，在文本理解方面确立了全球领先地位。同时，以更少的资源消耗，实现了更高的性能输出，为端侧设备的智能化提供了进一步突破精度与速度边界的全新可能。

de个Bug，成功：

紧急处理备忘录中的资料，也没问题：

音频理解

在语音理解方面，Megrez-3B-Omni的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问。

用户就任意模态内容，发出语音指令，Megrez-3B-Omni就能根据语音指令直接响应文本，实现多轮对话中语音与文本输入的自由切换，让用户可以通过更少动作与模型展开更直观、自然的交互。

遇到客户的超长语音连击也不怕了：

支持语音问图，还能听口令写小作文：

推理效率高，应用场景灵活

模型的规模并不是决定其速度的唯一因素，因此模型小并不一定就意味着速度快。凭借对硬件特性的深入理解与利用，Megrez-3B-Omni 通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。

与上一代及其他端侧大语言模型相比，单模态LLM版本的Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型300%。

Megrez-3B-Instruct这次还特别提供了WebSearch功能，这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。用户得以构建属于自己AI搜素，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。

有时，模型通过搜索网页可以更全面地完成回答，而其他时候，模型自身已具备足够的知识来独立解决问题，过多的搜索调用可能会降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换，避免了过度依赖搜索或完全不调用搜索的问题。除了可以自动决策工具调用时机之外，Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

目前，这些能力已集成于Megrez-3B-Instruct 模型中，用户可以通过System Prompt 自由切换，同时享受到高精度模型推理能力与智能WebSearch 调用收益。

One More Thing

相较于云端大模型，端侧模型需要在资源有限的设备上快速部署、高效运行，对降低模型计算和存储需求提出更高要求。

无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，正是模型轻量化、软硬件协同优化领域的顶尖团队。

无问芯穹表示，Megrez-3B-Omni是一个能力预览，接下来还将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。目前，无问芯穹就该一体化方案已与多家知名智能设备和终端芯片厂商展开合作。

在这个方案中，除端侧全模态理解模型外，还有端上推理软件和IP设计方案，不仅支持CPU、GPU和NPU 的同时推理，更能通过跨越软硬件层次的系统优化，额外带来最高可达70%的性能提升，最大化端侧硬件性能的利用。

对那些久困于功耗、速度、续航以及智能效果的端侧设备来说，这意味着，效果更佳的智能升级成为可能。

Github： https://github.com/infinigence/Infini-Megrez
HuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni
登录Infini-AI异构云体验纯语言版本Megrez-3B-Instruct：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

— 完 —

全球首个全模态理解开源端模型：图文音啥都会！300%推理速度领先

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

具身智能的快速迭代升级，需要一个3D物理正确的ImageNet

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

永远不要小看男人在这方面的速度

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

跟我比速度你是个吗

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

MIT开发新方法，无需从头训练机器人即可执行复杂任务

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

十问CPU做AI推理，伪命题还是真需求？

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

真把自己「当个人」的AI，扫去了我的社交贫困

中国飞行器速度超6马赫，外形略带臃肿，气动布局类似轰炸机

美超高音速试射成功，不到48小时，我方公布6.56马赫飞行器

中国造船速度非常快，但美专家表示：中国其实另有底牌

全球首个全模态理解开源端模型：图文音啥都会！300%推理速度领先

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

具身智能的快速迭代升级，需要一个3D物理正确的ImageNet

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增 一席

永远不要小看男人在这方面的速度

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

跟我比速度你是个吗

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

MIT开发新方法，无需从头训练机器人即可执行复杂任务

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

十问CPU做AI推理，伪命题还是真需求？

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

真把自己「当个人」的AI，扫去了我的社交贫困

中国飞行器速度超6马赫，外形略带臃肿，气动布局类似轰炸机

美超高音速试射成功，不到48小时，我方公布6.56马赫飞行器

中国造船速度非常快，但美专家表示：中国其实另有底牌

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席