智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力领先同级开源模型,多项基准媲美甚至超越GPT-5.2、Gemini 3 pro等闭源第一梯队。
Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,性能超过万亿参数的Qwen3-Max模型,部署显存占用降低60%,推理效率大幅提升,最大吞吐量可提升至19倍。
Qwen3.5上线后,我们马不停蹄地问了它一道大模型的“脑筋急转弯”:我要去洗车,洗车的地方离家就100米,我是开车去呢,还是走着去呢?
对于这道题,网友们测试了国内国外各类大模型,鲜有模型答对。而Qwen3.5不仅识别出了题目中的逻辑陷阱,还用很幽默和轻松的语气回答了正确的答案,并且给出了“开车慢行,确保安全”的温馨提示。
回看Qwen3.5的思考过程,它遵循着分析需求、识别核心陷阱、制定答案、起草答案、内部比较、最后打磨、思考其他可能、确定答案等一些列步骤,在其中还会像真人一样“鼓励自己”,坚定自己的回答。
价格上,Qwen3.5-Plus的API价格是最低每百万Token0.8元。同等性能下,这个价格仅相当于Gemini-3-pro的1/18。
从Qwen2.5、Qwen3到Qwen3.5,过去两年千问不断迭代开源,每一代产品、每一个尺寸都在为行业制定新的天花板标准,“最强开源=千问”几乎快成为共识。
但这一次,Qwen3.5的意义不止于“又刷新了一次榜单”。
一、让草图“一键变”网页,千问进化成原生多模态大模型
在解读Qwen3.5背后的技术之前,我们先来看看Qwen3.5在实际应用场景下的表现如何。智东西拿到抢先体验资格,率先对该模型的多模态理解、推理、以及代码生成能力进行了体验。
我们上传了一张礼品购买App的前端页面手绘草图,要求Qwen3.5根据草图生成红白配色的简约风前端页面,并输出可以直接用的HTML代码。
几乎没有思考时间,Qwen3.5先是识别出了草图中的基本框架和文字信息,在红白配色的模糊指令下,自主选择了饱和度没有那么高的红色。生成的代码简洁可用,页面也与草图几乎一模一样。
还有一处小细节是,我们上传的草图是英文,而Qwen3.5根据上下文的问答和提问的语言,判断出用户应该是中文用户,自动将页面语言调整为了中文。
在复杂场景与OCR能力方面,我随手拍了一张含有多个物体和背景的照片,问Qwen3.5:今天的天气怎么样?这张图片中都有什么?
可以看到模型可以在理解画面的同时,准确提取模糊的文字信息。这张图片是背光,文字在阴影内有些模糊不清,但Qwen3.5很准确地识别出了图片中的布洛芬颗粒冲剂、保湿霜以及酸奶的品牌,还贴心地附上了功效。
结合外面晴朗的天气,Qwen3.5综合判断用户正在家休息养生,并且给出了“希望天气好心情也好,早日恢复活力!”的祝福。
最后,我们来看看Qwen3.5在艺术理解上面的能力。我们给Qwen3.5看一张西班牙画家萨尔瓦多·达利的《记忆的永恒》,看看模型能不能识别出这幅画的风格派别和背景。
Qwen3.5提取出了这幅画中的特点元素“融化的时钟”,准确回答出这幅画的作者是萨尔瓦多·达利,并且将该作者的生平信息以及这幅画的画面材质、创作时间、尺寸、收藏地等详细信息都呈现给了用户。此外,该模型还详细介绍了这幅画的主要元素和象征意义以及艺术地位,对美学和抽象概念的理解较强。
Qwen3.5可与OpenClaw集成,驱动编程任务。通过将OpenClaw作为第三方智能体环境集成,Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力,以及OpenClaw的接口,为用户带来流畅的编码和研究体验。
此外,Qwen3.5能够作为视觉智能体,自主操作手机与电脑完成日常任务。在移动端,该模型已适配更多主流应用,支持自然语言指令驱动操作;在PC端,Qwen3.5能处理跨应用的数据整理、多步骤流程自动化等复杂任务,有效减少重复性人工干预,提升工作效率。
以Qwen3.5为底层模型,Qwen Code支持“vibe coding”,可将自然语言指令转化为代码、实时迭代开发项目,并支持如生成视频等富有创意的任务。
整体体验下来,Qwen3.5在多模态能力方面真是下了狠功夫。这背后其实是千问团队在模型底层架构的重构,千问正式从“语言模型”进化为“原生多模态大模型”。
二、原生全模态,让模型像人一样学习
业界普遍认为,统一多模态是通往通用人工智能的必经之路。但让大模型真正”张开眼睛”,在统一架构下同时提升语言和视觉能力,实现多模态信息的高效融合与协同生成,并非易事。
当前行业中不少看起来“多模态”的方案,本质上仍是“拼装”——先训好语言模型“学说话”,再外挂视觉或音频模块,模块之间靠适配层勉强对齐。
有的产品甚至只是在统一入口背后,通过工程路由将不同任务分发给不同模型。这些方案都没有实现真正的多模态融合,且不少视觉理解模型会随着视觉能力的增强,出现语言能力”降智”的问题。
Qwen3.5从一开始就选择了一条鲜有人踏足的路。
从预训练第一天起,该模型就在海量的文本和视觉的混合数据上联合学习,就像人类一样,调用五官来综合接收外界信息。
让视觉与语言在统一的参数空间内深度融合,模型看到一张图就能自然理解其语义,读到一段文字便能在脑中构建对应画面。没有“中间商赚差价”,没有信息折损,真正具备像人一样的跨模态的直觉理解力。
想要让这种原生融合真正跑起来,就要有一个“人类大脑”,模型的训练架构也必须跟着变。在这一点上,行业中的传统做法是让视觉和语言用同一套并行策略,效率损耗严重。
Qwen3.5的做法是各走各的最优路径,再在关键节点上高效汇合。这样做的结果就是哪怕同时喂入文本、图像、视频三种数据,训练速度也几乎不受影响,和只训练纯文本时相当。
同时,Qwen3.5通过定制化的FP8/FP32精度策略,使激活内存占用降低约50%,训练速度提升10%。该策略已在强化学习训练与推理全流程统一应用,有效降低了多模态模型规模化部署的成本与复杂度。
在智能体训练上,千问团队还搭建了一套大规模强化学习框架,支持文本、多模态与多轮对话等场景,训练效率提升了3至5倍。
原生多模态融合带来的能力不止图像理解,Qwen3.5可对图像做像素级空间定位与代码级精细处理,能理解2小时长视频的时序与逻辑关系,可将手绘草图转为可运行前端代码,还能作为视觉智能体自主操作设备、跨应用完成复杂任务。
三、四大核心突破,助力模型“以小胜大”
过去两年,大模型行业普遍走上“堆参数、拼算力”的“大力出奇迹”路线,模型规模从千亿一路攀升至万亿级别,性能虽有提升,但成本也随之水涨船高。
部署需要专属集群,推理消耗大量算力,不仅中小企业难以负担,终端设备更是无法运行。技术指标不断突破,可离普惠、实用的目标反而越来越远。Qwen3.5换了一种思路:不比谁更大,而是比谁更聪明,比谁能用相对更小的模型获得更大的智能。
具体来说,有四项核心技术突破共同支撑了这个结果:
一是混合注意力机制。传统大模型在处理长文本时,需对每个token与全部上下文进行全量注意力计算,文本长度越长,算力开销就越高,这也是限制长上下文能力的关键瓶颈。
Qwen3.5采用混合注意力机制,可依据信息重要性动态分配注意力资源,实现主次分明,在提升效率的同时保证精度。
二是极致稀疏MoE架构。传统稠密模型在每一次推理时都要调动全部参数参与运算,模型规模越大,对应的算力成本也就越高。
而Qwen3.5的MoE架构核心思路则在于,无需同时启用所有参数,只需依据输入内容,按需激活与之最相关的“专家”网络即可。
这样的架构,让Qwen3.5有397B的总参数的情况下,激活参数仅需17B,相当于仅需不到5%的算力,即可调动全部知识储备。
三是原生多Token预测。千问团队让模型在训练阶段就学会了对后续多个位置进行联合预测,推理速度接近翻倍。在长文本生成、代码补全、多轮对话等高频场景中,模型的响应速度接近“秒回”
四是系统级训练稳定性优化。2025年千问团队曾发表过一篇注意力门控机制的论文,还斩获了NeurIPS 2025最佳论文奖。
在这篇论文中,千问团队通过在注意力层的输出端加入了一个“智能开关”,就像一个水龙头,可以智能调控信息的“流量”。
这样既可以防止有效信息被淹没,也防止无效信息被过度放大,从而提升模型的输出精度和长上下文泛化能力。
类似的深层优化还包括归一化策略和专家路由初始化等,它们各自解决不同环节的稳定性问题,共同确保上述架构创新在大规模训练中真正跑得通、跑得稳。
在以上技术的加持下,Qwen3.5的新架构让模型在总参数不足400B的情况下,性能却能超越上一代超万亿模型的同时,部署显存占用降低60%,推理效率大幅提升,还顺手把API价格卷到了Gemini-3-pro的1/18。
当行业还在比拼”谁的跑分更高”时,Qwen3.5已经把竞争带向了下一个问题:谁的模型更好用、更实用、更多人用得起。
结语:Qwen3.5在“好用、实用、用得起”上一马当先
一马当先,不只是跑得快,更是跑得对、跑得远。
在多模态方面,Qwen3.5再一次验证了原生多模态是从预训练第一天起就让模型像人类一样,用统一的认知框架理解图文交织的世界。在效率与性能上,Qwen3.5将思考的重点放在“如何让大模型更高效”,“如何才能让大模型好用、实用、用得起”上。
从识别到理解,从单模态到跨模态推理,Qwen3.5让大模型从对话工具向理解真实世界的基础能力演进。阿里一方面在不断推出SOTA级模型,另一方面,通过开源策略让人人都能免费用,孕育出了一片全新的创新土壤。

