近日,一项名为“GAIA”的通用人工智能助手基准测试结果显示,即使是带有插件的 GPT-4,回答问题的正确率也仅为 15%,远低于人类的 92%。这一结果与近年来大模型在法律或化学等需要专业技能的任务中表现优于人类的趋势形成了鲜明对比。

研究团队表示,这些问题在概念上对人类来说非常简单,但对大多数大模型来说却很有挑战性。他们认为,AGI 的出现取决于系统能否在此类问题上表现出与普通人类似的鲁棒性。

需要注意的是,“GAIA”的理念偏离了当前 AI 基准的趋势,即瞄准对人类来说越来越难的任务。此外,虽然 GPT-4 在这次测试中的表现不如人类,但它在其他领域仍有出色的表现,并且通过使用工具 API 或网络访问,可以提高其准确性和使用案例。

打开网易新闻 查看更多图片

对于 GPT-4 的评价,不同的人可能有不同的观点。有些人认为它在某些任务上的表现已经非常出色,而有些人则认为它还有很大的提升空间。无论如何,这项测试结果提醒我们,人工智能技术还需要不断地发展和完善,才能更好地服务人类社会。

复制