Claude 3.5疑似蒸馏GPT模型，误把自己当作OpenAI

昨晚，Anthropic发布最新的Claude 3.5 Sonnet模型，超越GPT-4o。但在网友的测试中，却出现了Claude 3.5误认为自己是OpenAI的情况。

很可能是Anthropic模型在蒸馏OpenAI的数据。之前曾发生过类似的事件，谷歌Gemini说自己是文心一言。

不论如何，先看一下Anthropic这款最强模型的表现吧。

今天，我们推出了 Claude 3.5 Sonnet，这是即将推出的 Claude 3.5 型号系列中的第一款产品。Claude 3.5 Sonnet 提高了行业智能标准，在各种评估中均优于竞争对手的型号和 Claude 3 Opus，同时速度和成本与我们的中端型号 Claude 3 Sonnet 相当。

Claude 3.5 Sonnet 现已在 Claude.ai 和 Claude iOS 应用上免费提供，而 Claude Pro 和 Team 计划订阅者可以以更高的速率限制访问它。它也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获得。该模型每百万输入令牌收费 3 美元，每百万输出令牌收费 15 美元，具有 200K 令牌上下文窗口。

以 2 倍速度获取前沿情报

Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准。它在掌握细微差别、幽默和复杂指令方面表现出显著的进步，并且擅长以自然、亲切的语气撰写高质量的内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升加上经济实惠的价格，使 Claude 3.5 Sonnet 成为复杂任务的理想选择，例如上下文相关的客户支持和协调多步骤工作流程。

在内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，优于 Claude 3 Opus（解决了 38%）。我们的评估测试了模型修复错误或向开源代码库添加功能的能力，前提是给出了所需改进的自然语言描述。在得到指导和相关工具后，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，并具有复杂的推理和故障排除功能。它可以轻松处理代码转换，使其特别适合更新旧版应用程序和迁移代码库。

最先进的视觉

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型，在标准视觉基准上超越了 Claude 3 Opus。这些重大改进对于需要视觉推理的任务最为明显，例如解释图表和图形。Claude 3.5 Sonnet 还可以准确地从不完美的图像中转录文本 - 这是零售、物流和金融服务的核心功能，在这些服务中，AI 可以从图像、图形或插图中获得比仅从文本中更多的见解。

Artifacts——使用 Claude 的新方法

今天，我们还将在 Claude.ai 上推出 Artifacts，这项新功能扩展了用户与 Claude 的互动方式。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时，这些 Artifacts 会与对话一起显示在专用窗口中。这创建了一个动态工作区，用户可以实时查看、编辑和构建 Claude 的创作，将 AI 生成的内容无缝集成到他们的项目和工作流程中。

此预览功能标志着 Claude 从对话式 AI 进化为协作式工作环境。这只是 Claude.ai 更广阔愿景的开始，该愿景很快将扩展以支持团队协作。在不久的将来，团队（最终是整个组织）将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中，而 Claude 将成为随时可用的队友。

致力于安全和隐私

我们的模型经过了严格的测试，并经过了训练以减少误用。尽管 Claude 3.5 Sonnet 的智能有了飞跃，但我们的红队评估得出的结论是 Claude 3.5 Sonnet 仍处于ASL-2水平。更多详细信息请参阅模型卡附录。

作为我们对安全和透明度的承诺的一部分，我们与外部专家合作，测试和改进最新模型中的安全机制。我们最近将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所 (UK AISI) 进行部署前安全评估。英国 AISI 完成了 3.5 Sonnet 的测试，并将其结果与美国人工智能安全研究所 (US AISI) 分享，这是谅解备忘录的一部分，该备忘录得益于美国和英国 AISI于今年早些时候宣布的合作伙伴关系。

我们整合了外部主题专家的政策反馈，以确保我们的评估是稳健的，并考虑到滥用的新趋势。这种参与帮助我们的团队提高了评估 3.5 Sonnet 针对各种滥用类型的能力。例如，我们利用 Thorn 儿童安全专家的反馈来更新我们的分类器并微调我们的模型。

指导我们 AI 模型开发的核心宪法原则之一是隐私。除非用户明确允许，否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止，我们还没有使用任何客户或用户提交的数据来训练我们的生成模型。

即将推出

我们的目标是每隔几个月就大幅改善智能、速度和成本之间的权衡曲线。为了完善 Claude 3.5 型号系列，我们将在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了开发下一代模型系列外，我们还在开发新模式和功能，以支持更多企业用例，包括与企业应用程序集成。我们的团队还在探索诸如 Memory 之类的功能，该功能将使 Claude 能够记住用户的偏好和指定的交互历史记录，从而使他们的体验更加个性化和高效。

我们一直在努力改进 Claude，并乐于听取用户的反馈。您可以直接在产品内提交有关 Claude 3.5 Sonnet 的反馈，以告知我们的开发路线图并帮助我们的团队改善您的体验。与往常一样，我们期待看到您使用 Claude 构建、创建和发现的内容。

| |

Claude 3.5疑似蒸馏GPT模型，误把自己当作OpenAI

马斯克豪掷40亿购10万张H100训Grok 3！自曝Grok 2下月上线，巨额博弈剑指OpenAI

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

8人小团队单挑OpenAI，半年仿出GPT-4o，还开源了

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

Mamba架构第一次做大！混合Transformer，打败Transformer

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

从零手搓MoE大模型，大神级教程来了

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大疆前高管带6人创业，做出了类目Top1的割草机器人

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

小孩哥暑假变身“工程师 ”，电路设计、写代码、看图纸样样行，爸爸：不白干的，给他分成买冰棍

顶级人工智能#下棋的手法和技巧

任正非：中国人工智能不可能快速发展，因为中国缺数学家

还以为是模型，没想到是真坦克，这样玩也太浪费了！

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

奇谈！新加坡学者郑永年说：中国很快面临一个“全民弱智”的时代

Claude 3.5疑似蒸馏GPT模型，误把自己当作OpenAI

马斯克豪掷40亿购10万张H100训Grok 3！自曝Grok 2下月上线，巨额博弈剑指OpenAI

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

8人小团队单挑OpenAI，半年仿出GPT-4o，还开源了

首个开源、原生多模态生成大模型：一键生成 「煎鸡蛋」图文菜谱

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

Mamba架构第一次做大！混合Transformer，打败Transformer

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

从零手搓MoE大模型，大神级教程来了

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大疆前高管带6人创业，做出了类目Top1的割草机器人

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

小孩哥暑假变身“工程师 ”，电路设计、写代码、看图纸样样行，爸爸：不白干的，给他分成买冰棍

顶级人工智能#下棋的手法和技巧

任正非：中国人工智能不可能快速发展，因为中国缺数学家

还以为是模型，没想到是真坦克，这样玩也太浪费了！

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

奇谈！新加坡学者郑永年说：中国很快面临一个“全民弱智”的时代

首个开源、原生多模态生成大模型：一键生成「煎鸡蛋」图文菜谱