打开网易新闻 查看更多图片

图说:徐立介绍日日新5.0 新民晚报记者 陈炅玮 摄(下同)

“日日新”大模型,如其名,“苟日新,日日新,又日新”。

23日,商汤科技举办技术交流日活动,发布行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求。同时,“日日新”大模型体系升级至5.0版本,综合能力全面对标GPT-4 Turbo。

商汤科技董事长兼CEO徐立表示,在人工智能发展的最基本法则——尺度定律的准则下,商汤持续寻求最优数据配比并建立数据质量评价体系,在推动自身大模型研发的同时,也为行业伙伴提供大模型训练、微调、部署和各类生成式AI的能力及服务。

文理双修能力大幅提升

自去年4月问世,“日日新”大模型体系已推出五个大版本迭代。

基于超过10TBtokens训练、覆盖大量合成数据,全新的“日日新5.0”采用混合专家架构,推理时上下文窗口可以有效到200K左右。

徐立介绍,5.0版的更新主要增强了知识、数学、推理及代码能力,全面对标GPT-4

Turbo,主流客观评测上达到或超越GPT-4 Turbo。

图说:升级后的“日日新”在文科能力和理科能力上都有显著提升

升级后的“日日新”是位不偏科的“学霸”——

在文科能力方面,“日日新5.0”的创意写作能力、推理能力以及总结能力均大幅提升,相同的中文知识注入后,可以获得更好的理解总结及问答,有望为教育、内容产业等垂直应用场景提供有力辅助;

在理科能力方面,“日日新5.0”数理能力、代码能力及推理能力达到业内领先水平,或为金融、数据分析等场景落地提供坚实基础。

“‘日日新5.0’的另一大核心突破就是多模态能力。”徐立表示,“其图文感知能力在多模态大模型权威综合基准测试MMBench中综合得分排名首位。”

值得一提的是,“日日新5.0”在应用产品层面也实现了多模态能力:支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示。

完成“云端边”全栈布局

“我们观察到了中心化算力需求向端侧扩展的未来趋势,以及企业在边缘侧的AI需求。”徐立指出。

此次,商汤于业内首次推出“云、端、边”全栈大模型产品矩阵,包括应用于终端设备的“端侧大模型”,以及面向金融、代码、医疗、政务等多个领域的边缘产品“企业级大模型一体机”。

据介绍,日日新·端侧大模型性能实现同等尺度最优,跨级尺度全面领先。“端侧大语言模型实现了业内最快的推理速度。”徐立介绍,人眼最快阅读速度是20字/秒,端侧大语言模型可在中端平台实现18.3字/秒的平均生成速度,旗舰平台更是达到了78.3字/秒。

端云协同解决方案也同步推出,可以通过智能化判断协同发挥端云各自优势——需要联网搜索或处理复杂场景时分流至云端处理,部分场景端侧处理占比超过80%,从而显著降低推理成本。

对于金融、代码、医疗、政务等重点行业边缘侧日益增长的AI应用需求,商汤在技术交流日上推出企业级大模型一体机,可同时支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署,即买即用,降低企业应用大模型的门槛。相比行业同类产品,推理成本节约80%,检索大大加速,CPU工作负载50%。

打开网易新闻 查看更多图片

图说:“日日新”大模型体系中的文生图大模型“秒画”能力也得到提升

 “文生视频”已在路上

在技术交流日最后环节,商汤科技董事长兼CEO徐立还带来了三段完全由大模型生成的视频,并强调文生视频平台对于人物、动作和场景的可控性。

记者获悉,商汤科技在文生视频平台方面已取得了技术突破。未来,通过输入一段文字或一个完整的描述,就可以生成一段视频,而且人物的服饰、发型、场景都可以根据预先设定,保持视频内容的连贯性和一致性。

“一方面,现阶段大模型发展已进入落地阶段,如何与产业、应用场景结合是关键一环。”徐立分析,“另一方面,‘尺度定律’路径逐渐清晰,‘涌现’时刻不断出现,前瞻探索最先进的大模型技术亦是重中之重。”

市经济和信息化委员会副主任张宏韬表示,上海发布了推动AI大模型发展的“11条措施”,引进培育了各类大模型企业集聚发展,目前申城企业和科研机构已有24款大模型通过国家备案,数量居于全国前列,并形成了在工业、金融、文旅、航运、物流、安防等多个领域垂直落地的典型案例。

张宏韬透露,上海将持续激活要素资源,打造智能算力的调度平台,实施算力补贴,降低企业创新成本,加快高质量语料库的建设和开源开放。

新民晚报记者 郜阳