打开网易新闻 查看更多图片

昨晚,Anthropic发布最新的Claude 3.5 Sonnet模型,超越GPT-4o。但在网友的测试中,却出现了Claude 3.5误认为自己是OpenAI的情况。

很可能是Anthropic模型在蒸馏OpenAI的数据。之前曾发生过类似的事件,谷歌Gemini说自己是文心一言。

打开网易新闻 查看更多图片

不论如何,先看一下Anthropic这款最强模型的表现吧。

今天,我们推出了 Claude 3.5 Sonnet,这是即将推出的 Claude 3.5 型号系列中的第一款产品。Claude 3.5 Sonnet 提高了行业智能标准,在各种评估中均优于竞争对手的型号和 Claude 3 Opus,同时速度和成本与我们的中端型号 Claude 3 Sonnet 相当。

Claude 3.5 Sonnet 现已在 Claude.ai 和 Claude iOS 应用上免费提供,而 Claude Pro 和 Team 计划订阅者可以以更高的速率限制访问它。它也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获得。该模型每百万输入令牌收费 3 美元,每百万输出令牌收费 15 美元,具有 200K 令牌上下文窗口。

打开网易新闻 查看更多图片

以 2 倍速度获取前沿情报

Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准。它在掌握细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升加上经济实惠的价格,使 Claude 3.5 Sonnet 成为复杂任务的理想选择,例如上下文相关的客户支持和协调多步骤工作流程。

在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于 Claude 3 Opus(解决了 38%)。我们的评估测试了模型修复错误或向开源代码库添加功能的能力,前提是给出了所需改进的自然语言描述。在得到指导和相关工具后,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。它可以轻松处理代码转换,使其特别适合更新旧版应用程序和迁移代码库。

打开网易新闻 查看更多图片

最先进的视觉

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型,在标准视觉基准上超越了 Claude 3 Opus。这些重大改进对于需要视觉推理的任务最为明显,例如解释图表和图形。Claude 3.5 Sonnet 还可以准确地从不完美的图像中转录文本 - 这是零售、物流和金融服务的核心功能,在这些服务中,AI 可以从图像、图形或插图中获得比仅从文本中更多的见解。

打开网易新闻 查看更多图片

Artifacts——使用 Claude 的新方法

今天,我们还将在 Claude.ai 上推出 Artifacts,这项新功能扩展了用户与 Claude 的互动方式。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些 Artifacts 会与对话一起显示在专用窗口中。这创建了一个动态工作区,用户可以实时查看、编辑和构建 Claude 的创作,将 AI 生成的内容无缝集成到他们的项目和工作流程中。

此预览功能标志着 Claude 从对话式 AI 进化为协作式工作环境。这只是 Claude.ai 更广阔愿景的开始,该愿景很快将扩展以支持团队协作。在不久的将来,团队(最终是整个组织)将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中,而 Claude 将成为随时可用的队友。

致力于安全和隐私

我们的模型经过了严格的测试,并经过了训练以减少误用。尽管 Claude 3.5 Sonnet 的智能有了飞跃,但我们的红队评估得出的结论是 Claude 3.5 Sonnet 仍处于ASL-2水平。更多详细信息请参阅模型卡附录。

作为我们对安全和透明度的承诺的一部分,我们与外部专家合作,测试和改进最新模型中的安全机制。我们最近将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所 (UK AISI) 进行部署前安全评估。英国 AISI 完成了 3.5 Sonnet 的测试,并将其结果与美国人工智能安全研究所 (US AISI) 分享,这是谅解备忘录的一部分,该备忘录得益于美国和英国 AISI于今年早些时候宣布的合作伙伴关系。

我们整合了外部主题专家的政策反馈,以确保我们的评估是稳健的,并考虑到滥用的新趋势。这种参与帮助我们的团队提高了评估 3.5 Sonnet 针对各种滥用类型的能力。例如,我们利用 Thorn 儿童安全专家的反馈来更新我们的分类器并微调我们的模型。

指导我们 AI 模型开发的核心宪法原则之一是隐私。除非用户明确允许,否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止,我们还没有使用任何客户或用户提交的数据来训练我们的生成模型。

即将推出

我们的目标是每隔几个月就大幅改善智能、速度和成本之间的权衡曲线。为了完善 Claude 3.5 型号系列,我们将在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了开发下一代模型系列外,我们还在开发新模式和功能,以支持更多企业用例,包括与企业应用程序集成。我们的团队还在探索诸如 Memory 之类的功能,该功能将使 Claude 能够记住用户的偏好和指定的交互历史记录,从而使他们的体验更加个性化和高效。

我们一直在努力改进 Claude,并乐于听取用户的反馈。您可以直接在产品内提交有关 Claude 3.5 Sonnet 的反馈,以告知我们的开发路线图并帮助我们的团队改善您的体验。与往常一样,我们期待看到您使用 Claude 构建、创建和发现的内容。

| |