来源:@首席数智官

5月9日消息,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo,成为地表最强中文大模型。

通义千问最新开源的1100亿参数模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

同时,通义大模型品牌升级,“通义千问APP”更名为“通义APP”,集成通义大模型全栈能力,免费为所有用户提供服务。通义APP以性能媲美GPT-4 Turbo的基模为底座,并把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“All in one”,成为每个人的全能AI助手。

此外,阿里云公布最新数据,通义大模型通过阿里云服务企业超9万,通义开源模型累计下载量突破700万。通义落地应用进程加速,现已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,成为最受中国企业欢迎的大模型。

打开网易新闻 查看更多图片

01 地表最强中文大模型

相比通义千问2.1版本,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界。在权威基准OpenCompass上,通义千问2.5得分追平GPT-4 Turbo,是该基准首次录得国产大模型取得如此出色的成绩。

打开网易新闻 查看更多图片

通义还发布了最新款开源模型,1100亿参数的Qwen1.5-110B,该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型;在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B冲上榜首,再度证明通义开源系列业界最强的竞争力。

打开网易新闻 查看更多图片

通义的多模态模型和专有能力模型也具备业界顶尖影响力。通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越Gemini Ultra和GPT-4V,目前已在多家企业落地应用;通义千问代码大模型CodeQwen1.5-7B则是HuggingFace代码模型榜单Big Code的头名选手,还是国内用户规模第一的智能编码助手通义灵码的底座。

通义大模型问世一年多来,还发展出了业界领先的文生图、智能编码、文档解析、音视频理解等能力,企业客户和开发者可以通过API调用、模型下载等方式接入通义,个人用户可从通义APP、官网和小程序免费使用通义家族全栈服务。

02 通义App品牌升级

通义意为“通情,达义”,具备全副AI能力,致力于成为人们的工作、学习、生活助手。

打开网易新闻 查看更多图片

通义APP拥有超强文档处理能力,单次可处理多达1000万字的长文档,还能同时解析100份不同格式的文档,是金融、法律、科研、医疗、教育等领域专业人士的工作提效利器;基于通义大模型出色的音视频理解能力,通义APP能够精准高效地进行音视频文件的识别理解、摘要总结、多语言翻译,可同时上传处理50个音视频文件;通义APP还集成了国内最受欢迎的智能编码助手通义灵码,能帮助所有人随时随地在手机上写代码、读代码、学习编程技能。

打开网易新闻 查看更多图片

今年以来,通义APP先后推出了“全民舞王”、“全民唱演”、“通义照相馆”、AI智能体等现象级应用,在“全民舞王”频道,用户上传一张照片就能跳“科目三”等舞蹈;在“全民唱演”频道,用户用一段音频就能驱动肖像照中的人物唱歌说话。这些热门应用背后都是通义实验室自研的前沿AI模型,未来,通义APP还将推出更多以新技术驱动的新玩法,让所有人都能获得最领先的大模型技术体验。

03 更受欢迎的大模型

阿里云AI峰会现场,小米旗下的人工智能助手“小爱同学”已与阿里云通义大模型达成合作,强化其在图片生成、图片理解等方面的多模态 AI 生成能力,并在小米汽车、手机等多类设备落地;微博、众安保险、完美世界游戏等企业也宣布接入通义大模型,将大模型应用于社交媒体、保险、游戏等领域。

打开网易新闻 查看更多图片

更早之前,新东方、同程旅行、长安汽车、西部机场集团、亲宝宝等企业也都与通义大模型达成合作。中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语3.0”,这是大模型首次应用于天文观测领域;陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统,成为大模型在矿山场景的首次规模化落地。

截至目前,通义大模型通过阿里云服务企业超过9万、通过钉钉服务企业超过220万。与此同时,海内外大量中小企业和开发者以下载开源模型的方式使用通义,在HuggingFace、魔搭ModelScope等开源社区,通义开源大模型的累计下载量超过了700万。

by@首席数智官