ARC-AGI测试是一项旨在衡量人工智能抽象和推理能力的基准测试,被认为是评估通用人工智能(AGI)进展的关键工具之一
o3 Pro 在 ARC-AGI 半私有最新评估结果性能表现
ARC-AGI-1:(难度相对小一点),正确率
* 低:44%,每任务 $1.64
* 中:57%,每任务 $3.18
* 高:59%,每项任务 4.16 美元
ARC-AGI-2:(全新基准,测试数据集难度很大)
* 所有推理工作:正确率都<5%,每项任务 4-7 美元
主要结论:
* o3-pro high性能竟然不如o3 high
* o3 和o3pro推理价格大幅降低,o3比GPT 4o还要便宜20%左右
从这个测试看o3 pro 可能被降智

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片