让海淀老师参与打造大模型评测体系,是同样位于海淀的北京智源人工智能研究院最新创举。

众所周知,如今整个大模型行业呈现出“百花齐放”的发展态势,各种各样针对大模型的评测也层出不穷。不过,绝大多数评测都以“开卷考”形式进行,让很多大模型有了刷榜、刷题的机会,已经无法客观公正地反映模型的真实水平。

那么,为更好地推动国内AI大模型的发展,有必要出现一个中立、客观、公正的第三方机构,为行业交出一份全面的大模型评测“答卷”。

2024年5月17日,智源研究院举办大模型评测发布会。会上,正式发布对国内外140余个开源和闭源的语言及多模态大模型全方位能力评测结果。

据了解,本次评测主要从主观和客观两个层面入手,分别对语言模型和多模态模型进行了考察。前者涵盖简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;后者包括多模态理解和生成能力。

从语言模型来看:

  • 主观评测结果显示:在中文语境下,字节跳动豆包Skylark2和OpenAI GPT-4位居前两名。
  • 客观评测结果显示:GPT-4和百川智能Baichuan3位列前两名。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi,进入语言模型主客观评测前五名。

打开网易新闻 查看更多图片

(来源:资料图)

从多模态模型来看:

  • 主观评测结果显示:在文生图评测上,OpenAI DALL-E3、智谱华章CogView3、Meta Imagine位居前三名,百度文心一格和字节跳动doubao-Image紧随其后;在文生视频评测上,OpenAI Sora、Runway、爱诗科技PixVerse、Pika和腾讯VideoCrafter-V2位列前五名。
  • 客观评测结果显示:在图文问答上,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5位居前两名,GPT-4、LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

打开网易新闻 查看更多图片

图丨文生图模型的客观评测指标与主观感受差异巨大,有失效迹象,因此排名以主观评测为准(来源:资料图)

总的来看,国内头部语言模型的综合表现接近国际一流水平,但仍存在发展不均衡的情况。在多模态理解图文问答上,开闭源模型平分秋色,国产模型表现突出。

在中文语境下,国产多模态模型的文生图能力和国际一流水平之间存在较小差距。在多模态文生视频上,Sora优势明显,国产模型PixVerse在其他开放评测的文生视频模型中表现优异。

基于科学、权威、公正、开放的大模型评测体系进行

事实上,上述评测是智源研究院基于科学、权威、公正、开放的大模型评测体系进行的。

2023年6月,其与多所高校共建的FlagEval大模型评测平台正式上线,截至目前已经完成1000多次覆盖全球多个开源大模型的评测。

据了解,本次模型评测采取客观评测统一规则与主观评测多重校验打分相结合的方法。另外,还使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。

对于该评测而言,“科学、权威、公正、开放”是其最高纲领。

“在今天的结果发布之前,我作为十几年的AI行业从业者,都已经无法看清形势。媒体和普通用户更没有辨别能力,这并不利于整个行业的发展。为确保本次评测绝对公平公正,我们一开始就确定,所有的工作都围绕这四个关键词展开。”智源研究院院长王仲远表示。

显然,随着大模型的不断发展,相应的评测也应该及时更新迭代。因此,从长期视角出发,智源希望联合生态伙伴共同建立良好的评测环境,实现轻量级或固定评测榜单实时或按月发布、重量级榜单半年发布一次的目标。

“这样才能真正看到模型的发展速度和变化,才能对行业和技术发展带来真正的帮助和借鉴。”王仲远说。

在此基础上,为推动模型评测结果的可信度更高,智源也在以下几个方面进行探索。

智源研究院副院长兼总工程师林咏华表示:“首先,保证评测不容易被过度拟合,必须要做到以新换旧、以难换易。在下次的评测中,智源会换更难的题目。其次,在评测中需要满足大模型新的使用场景。我们会不断地把指令跟随等新的使用场景更新到评测集中。最后,大模型的发展对新的模态有新的要求,未来我们也会添加可信等维度。”

除此之外,目前智源评测还只集中在通用模型层面,后续也计划联合更多专业机构,将评测推向金融、医疗、法律等垂类场景。

联合权威教育机构对大模型进行K12全学科评测

联合北京市海淀区教师进修学校对大模型进行K12全学科评测,是智源本次评测颇具特色的一点。其中,针对答案不唯一的主观题,则由海淀教师亲自评卷。

那么,从评测结果来看,在综合学科能力上,模型与海淀学生的平均水平相比仍有差距。文强理弱的情况不仅普遍存在,对图表的理解能力也有不足。

打开网易新闻 查看更多图片

(来源:资料图)

根据北京市海淀区教师进修学校校长姚守梅的解读,模型在面对语文、历史等人文学科考题时,欠缺对文字背后的文化内涵及家国情怀的理解;面对历史地理综合题时,无法有效识别学科属性;面对英语学科时,更擅长复杂题目而非简单题目;求解理科考题时,会出现用超出年级的方法解题的情况,遇到无法理解的考题时还存在明显的“幻觉”。

打开网易新闻 查看更多图片

图丨姚守梅(来源:资料图)

其中,模型不擅长低年级题目的表现让人感到反常和好奇。这背后,究竟存在哪些原因?

王仲远指出,越低年级的题目,图片就越多。从某种程度上看,由于多模态发展不如语言模型的发展,所以大模型在包含更多图片的低年级题目上,反而做得不够好。

智源研究院智能评测组负责人杨熙在认同上述看法的同时,也从模型训练的角度进行了补充。

“做模型时要更多地面向应用,所以对标的是成人的认知,使用的训练数据大部分也都来自互联网。而人类在低幼时期获取知识的方式和成人获取知识的方式并不相同。这也从侧面反映出,大模型的学习方式与人类的认知发展方式有差别。”他说。

另外,智源之所以选择对大模型进行K12全学科测试,是否意味着其认为教育大模型是一个很好的落地赛道?

“K12本身不是为了评测教育,也不是为教育行业服务,而是为了评测大模型的学科能力。”王仲远表示。

举例来说,在该领域从业者的共识中,大模型更容易在金融、医疗等领域落地。其中,金融行业需要强大的语文能力,医疗行业需要化学、数学等能力。利用K12全学科来考察大模型,实则是为了了解它在哪个行业的发展潜力最大。

与中传联合建立针对文生视频模型的主观评价体系

另据悉,在本次发布会上,中国传媒大学智能媒体计算实验室负责人史萍教授指出,与文本相比,视频在主观评价上复杂性极高,自动化指标难以全面衡量模型生成质量,以及量化生成视频的真实性、图文语义性等维度。

打开网易新闻 查看更多图片

图丨史萍(来源:资料图)

基于此,智源宣布与中国传媒大学媒介融合与传播国家重点实验室联合建立针对文生视频模型的主观评价体系,将从图文一致性、真实性、视频质量和美学质量四大方面给出多维度评分,从而为文生视频的应用和发展提供系统化参考。

文生视频,是多模态能力的一种。有观点认为,多模态是中国大模型发展弯道超车的机会。

对此,林咏华表示,有这种可能性的存在。“关键在于驱动多模态模型成功的要素,即算法、算力和数据。”她说。

就智源评测而言,由于目前多模态模型评测的任务还比较单一,而多模态模型发展将会朝着世界模型的方向发展,因此今后其在评测时会重点考察多模态模型是否能够真正理解世界背后的科学原理和数理逻辑。

打开网易新闻 查看更多图片

图 | 王仲远(来源:资料图)

在王仲远看来,将来大模型行业会分成两个发展方向,一是追求最顶尖的大模型,通过继续扩大数据参数量、算力等方面,来实现真正的通用人工智能(AGI,Artificial General Intelligence),二是发展能够改变各行各业、解决实际问题的产业大模型。

“我认为三年内可以看到AI与各行各业的深度结合,五年内能有‘杀手级’的C端应用出现,十年内我期待国产AGI的诞生。”对于大模型的未来,他这样预测。