微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

智东西编译尹明顺编辑漠影

智东西9月14日消息，据VentureBeat昨日报道，微软公布了一项名为“Windows Agent Arena（WAA）”的开创性基准测试。该测试用于在Windows操作环境中对AI Agent性能进行评估，旨在为AI Agent开发提速。

该论文发表在arXiv.org上。研究人员写道：“大语言模型在AI Agent领域显示出巨大的潜力，能够在需要规划和推理的多模态任务中提升人类生产力和软件的可用性。”同时还补充道：“然而，在真实环境中衡量AI Agent性能依然是一个挑战。”

论文链接：https://arxiv.org/pdf/2409.08264

WAA的创新点在于，它能够在微软Azure云科技中的多个虚拟机上进行并行测试，在短短20分钟内就可完成全面的基准评估。

此外，微软还将多模态AI Agent Navi引入测试，以展示WAA的能力。经检验，Navi在WAA测试中任务完成的成功率为19.5%，而人类的成功率是74.5%。

▲Windows Agent Arena（来源：Windows Agent Arena页面）

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

Windows Agent Arena提供了一个可复现测试环境，其中AI Agent与常见的Windows应用程序、网络浏览器和系统工具进行交互，模拟人类用户体验，继而帮助开发者评估和优化AI Agent的能力。

微软的研究人员写道，在真实环境中测试Agent性能仍然是一个挑战，这是因为大多数基准测试仅限于特定模式或领域（例如，纯文本、Web导航、问答、编码）；另外鉴于任务的多步骤顺序性质，完整的基准评估很慢（大约几天时间）。

WAA的一个关键创新是能够在微软Azure云科技中的多个虚拟机上进行并行测试。论文解释称：“我们的基准测试是可扩展的，可以在Azure中无缝并行处理，在短短20分钟内就可完成全面的基准评估。”与传统可能需要数天的顺序测试相比，这极大地加快了AI Agent开发周期。

该测试包含了154个不同任务，涵盖编辑文档和电子表格（LibreOffice Calc/Writer）、浏览互联网（微软Edge、Google Chrome）、Windows系统任务（文件资源管理器、设置）、编码（Visual Studio Code）、观看视频（VLC播放器）和实用功能（记事本、时钟、画图）。

▲涵盖的测试具体任务显示（图源：Windows Agent Arena页面）

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

Windows Agent Arena项目页面显示：“为了展示WAA的能力，我们还引入了一种新的多模态AI Agent Navi。”

//oss.zhidx.com/uploads/2024/09/66e51131cc06d_66e51131c7a14_66e51131c79ef_vscode.mp4

▲Navi在Windows Agent Arena中面对一个典型的Windows任务：在Visual Studio Code中安装Pylance扩展。这展示了如何训练AI Agent人在普通软件环境中导航（来源：微软研究院）

测试结果显示，Navi在WAA中的成功率为19.5%，而人类的成功率是74.5%。这说明想开发出能与人类计算机操作能力相仿的AI，还存在很大挑战。

▲Navi在任务期间的推理过程和屏幕解析的分步示例（图源：Windows Agent Arena页面）

这项研究的主要作者Rogerio Bonatti说：“Windows Agent Arena为实现AI Agent的突破，提供了一个现实而全面的环境。同时，我们也希望通过AWW开源，来推进整个AI社区在这一关键领域的研究。”

此外，微软对几种最先进的视觉语言模型Agent配置都进行了基准测试，发现与人类行为相比所有现有模型的性能都较低，并且模型之间性能也存在很大差异。

WAA的发布正值科技巨头之间竞争加剧之际，他们正在开发功能更强大的AI Agent，以应对复杂的计算机任务。

微软对Windows环境的关注可能会使其在企业场景中保持主导优势。

三、AI Agent时需平衡创新和伦理

像Navi这样的AI Agent带来的潜在好处是显著的，但开发此类技术也引发了重要的伦理考量。

随着AI Agent变得越来越复杂，它们将更全面地访问用户的数字生活，可能会在各种应用程序中与用户的敏感个人信息、专业信息产生接触。

AI Agent在Windows环境中具有自由操作的能力，比如访问文件、发送电子邮件或修改系统设置等等，这都显示出采取强大的隐私保护措施的必要性。

在赋予AI有效协助用户的能力与维护用户隐私、控制用户数字领域之间，需要找到一个微妙的平衡点。

此外，随着AI Agent越来越能够模仿人类与计算机系统的交互，还出现了有关透明度和问责制的问题。

当用户与AI交互时，特别是在专业或者高风险场景中，可能需要被明确告知，因此明确用户同意协议也至关重要。

结语：开源WAA也需提升风险防控意识

微软开源了Windows Agent Arena，朝着提升协作开发和审查技术迈出积极一步。

但与此同时，可能会有人使用该测试去开发具有恶意的AI Agent，这意味着人们需要对此领域保持必要警惕和监管。

随着WAA为开发功能更强大的AI Agent加速，研究人员、伦理学家、政策制定者和公众就这些技术的影响进行持续讨论，将至关重要。

来源：VentureBeat、Windows Agent Arena页面

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

微软Copilot客户量上季增60%！新升级能编Excel表、分析优先处理邮件

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

一个平台管好四万五千台设备，六周完成终端设备“无感迁移” | 创新场景

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

大疆前高管带6人创业，做出了类目Top1的割草机器人

DeepMind再迎挑战者，ESM作者带队6个月超越AlphaFold 3，代码权重全开源

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

Python爆火可视化插件来了！拖拽就成动态GUI，一行代码都不用，真·数据科学神器

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

AI可能造成人类灭绝，真的还是炒作？

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

针对全球零工招聘的AI助手来了！基于GPT-4构建，自动化程度大幅提升

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

微软Copilot客户量上季增60%！新升级能编Excel表、分析优先处理邮件

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

一个平台管好四万五千台设备，六周完成终端设备“无感迁移” | 创新场景

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

大疆前高管带6人创业，做出了类目Top1的割草机器人

DeepMind再迎挑战者，ESM作者带队6个月超越AlphaFold 3，代码权重全开源

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

Python爆火可视化插件来了！拖拽就成动态GUI，一行代码都不用，真·数据科学神器

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

大模型如何助力企业AI创新？阿里云AI专家为你解答 哪些因素影响企业用户选择模型服务平台？检索增强R

AI可能造成人类灭绝，真的还是炒作？

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观 这个爆火AI编程工具Cursor真的杀疯

针对全球零工招聘的AI助手来了！基于GPT-4构建，自动化程度大幅提升

练习时长两年半，机器人转笔大师诞生！ 不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到