打开网易新闻 查看更多图片

近期,中国软件评测中心联合中国移动研究院,依托“弈衡”通专大模型评测体系,共同制定面向端侧大模型的评测方法和指标体系,并选取业界多款主流端侧大模型开展评测。结果表明,部分端侧大模型可满足基本使用需求,但整体表现与云端大模型有一定差距,且用户体验存在较大提升空间。

当前,随着人工智能技术的不断进步,大模型已成为推动各行各业创新和发展的重要驱动力,根据应用场景及部署方式,大模型主要分为云端大模型和端侧大模型。根据大模型经验法则Scaling Law,大模型性能与参数规模正相关,目前,据可公开信息显示,头部大模型参数量以千亿级为主,且均为云端大模型,但存在算力成本高、隐私保护难、部署不灵活等问题。端侧大模型则可以直接调用端侧算力独立运行,无需额外算力成本;用户数据无需网络传输,减少了隐私泄露和信息安全风险;同时模型端侧部署灵活性高,便于根据用户偏好提供个性化服务。端侧大模型因其算力成本低、隐私安全性高、部署灵活等优势,已成为人工智能领域的重要发展方向,引起业界广泛重视,国内外多家公司及研究机构纷纷推出相关产品。

前期,中国软件评测中心联合中国移动研究院制定“弈衡”通专大模型“2-4-6”评测体系,包含两类评测任务、四种评测要素、六大评测维度。依托该体系,制定了面向端侧大模型的评测方法和指标体系,重点聚焦功能性、准确性和交互性等维度进行评估,涵盖文本理解、逻辑推理、学科知识、程序编写等多项能力,可充分验证典型场景下的真实体验。

本次评测从业界开放端侧大模型中,选取国内外11款主流产品,包括Google、Meta AI等发布的8款国外模型,以及阿里巴巴、面壁智能等发布的3款国内模型。参测模型参数量介于15亿至107亿之间,根据适配情况分别部署于Android、iOS手机平台,详细情况见表1。

打开网易新闻 查看更多图片

本次评测选取业界端侧开源大模型,在IOS及Android手机环境安装部署,并检验适配性。IOS采用苹果系列手机,Android采用国产品牌手机,操作系统均为最新版本,评测期间采用断网方式确保为终端本地推理服务。采用业界主流评测数据集格式自主构建评测数据,对模型进行评测和结果评判分析。基于“弈衡”大模型评测体系,从准确性、完成率、时延、内容输出长度等指标进行综合能力打分。满分100分,参测大模型得分位于38—63分之间。其中,Solar-10.7B和Starling-7B得分高于55分,相对表现较好;Qwen2-1.5B、Phi-3-mini-128k和Neural Chat-7B 得分40分左右,整体表现一般。详细得分排名见图1。

打开网易新闻 查看更多图片

▲图1 业界典型端侧大模型评测结果

评测结果表明:一是端侧大模型整体表现与云端大模型有一定差距,端侧大模型在数学推理、程序编写等方面表现较差,整体准确率与主流云侧大模型相差约30%;Qwen1.5-0.5B、Phi-3-mini等超半数参测模型仅支持单轮交互;部分参测模型响应速度慢,如Llama3-8B、Starling-7B等平均时延较主流云侧大模型高10倍以上,可用性较差。二是部分端侧大模型可满足基本使用需求,如Solar-10.7B、Llama3-8B等模型阅读理解、物理问题和常识问答等方面准确率可达70%以上,与主流云侧大模型差距不明显;Mistral-7B和Starling-7B等模型内容创作平均字数可达1000字以上,可基本满足应用需求。三是部分参测大模型的用户体验存在较大提升空间,如Llama-3-8B在推理过程中,偶发界面卡顿、终端发热大等问题。

下一步,中国软件评测中心联合中国移动研究院继续深化合作,携手并进,不断完善“弈衡”大模型评测体系,持续对业界大模型开展评测分析,洞察大模型技术发展趋势,为推动大模型技术进步和成熟应用贡献评测力量!

联系人:孙老师

联系方式:18500410430(同微信)

来源 | 人工智能场景化应用与智能系统测评工业和信息化部重点实验室

编辑 | 办公室

打开网易新闻 查看更多图片