引言

在人工智能的快速发展浪潮中,生成式大语言模型的演进正处在一个关键的转折点,或者我们称之为“大模型成长的尴尬期”:一方面现有的模型在文学创作、艺术表现和多模态内容理解上已展现出令人瞩目的能力,但另一方面其在专业领域的应用能力仍未达到可规模化使用的水平。然而,随着Anthropic公司的最新力作——Claude 3模型家族的发布,我们欣喜地发现,随着推理和泛化能力的显著增强和长上下文处理的能力快速提升,生成式大语言模型在专业性方面又迈出了坚实的一步。同时Claude 3通过多种技术手段的使用,进一步提升了其在安全和伦理上标准。这种“安全与发展”兼顾并重的思路,或许为我国大模型发展揭示出一条可行的演进路径。

能力分析与技术亮点

以下是阿里研究院综合了Claude 3技术报告、内部测试体验和业界试用反馈后的整体分析:

1. Claude 3模型家族并非全新事物,依然是大语言模型在Transformer架构下的能力提升

尽管Claude 3在上述表现方面取得了显著的进步,但这些改进更多地体现在模型的应用层面,而不是对Transformer架构本身的基础技术进行根本性的改变。Transformer架构的核心原理,如自注意力机制和编码器-解码器结构,仍然是大语言模型的基础。相比Sora在视频生成领域的阶跃式技术创新,Claude 3更多体现的是生成式大语言模型在原有路径上进一步的能力攀升:不仅是长上下文处理和多模态处理的能力提升,更值得关注的是推理和泛化能力突破,可能有效改善模型的专业度和可靠性,并加快在领域应用的拓展。

2. Claude 3模型家族在推理和泛化、长上下文处理、多模态能力这三个方面体现出了明显的功能增强与性能提升

推理和泛化提升:Claude 3模型家族在推理和泛化方面取得了明显的进步。推理能力直接关联到模型理解和处理复杂任务的能力,被视为大型语言模型的“北极星指标”,也是当前包括GPT-4在内的全球诸多模型存在的短板和重点提升方向。如其技术报告显示,Claude 3 Opus在模型常见基准测试中的表现突出,但最突出的还是以“0-Shot”(零样本学习)在MATH(数学)、GPQA(生物、物理、化学)等数据集上拉开了与GPT-4的差距,展示了其在数学和科学问题上的理解,也证明了其在跨领域问题解决上的泛化能力。这种能力的提升,使得Claude 3模型在自动化任务、研究开发、策略分析的应用前景更加广阔。其测试结果也显示,模型在金融/医疗等侧重专业知识和分析的行业场景性能提升明显

打开网易新闻 查看更多图片

图1:Claude 3系列与GPT、Gemini系列测试结果对标(来源Anthropic官网)

图2:金融和医疗领域人类专家对模型产出的偏好评价(来源Anthropic官网)

长上下文处理提升(long context):支持更长的上下文意味着大模型拥有更大的“内存”,指人工智能模型能够理解和处理较长的文本序列,这在文细微或深层信息理解、连贯性维护、复杂任务处理、推理能力增强和多样性数据处理上都有很大帮助。Claude 3模型支持长达20万token的上下文窗口,在QuALITY基准测试中,Claude 3 Opus在长文本问答任务中的表现优于早期模型,无论是在0-shot还是1-shot设置下。这种长上下文处理能力对于需要深入理解和分析大量信息的场景至关重要,如金融数据分析、学术研究和法律文档审查等。但Claude 3在此领域能力并未超越业界其他顶尖模型。例如,Google的Gemini 1.5 pro支持100万token的长上下文,而我国的月之暗面(Kimichat)则支持200万上下文处理。

多模态能力提升:多模态输入能力允许模型处理图像数据,为用户提供更丰富的上下文和扩展用例。Claude 3模型家族在多模态能力上的提升,是对Claude 2模型的显著改进。在AI2D科学图表基准测试中,Claude 3 Sonnet的表现展示了其在视觉问答评估方面的能力。然而,多模态处理能力在大模型领域已有先例,例如GPT-4V和阿里通义千问2.0在多模态内容理解上处于业界领先水平,其他模型和研究团队也在探索如何结合视觉和文本信息以提高模型的性能。

3. 通过Constitutional AI、合成数据、严格的数据筛选和清洗等技术手段,体现出Anthropic在安全性和伦理性上的一贯重视

Anthropic公司对Claude 3模型在安全性和伦理性方面进行了显著的改进,体现了其对AI技术的负责任态度。该模型采用了“Constitutional AI”技术,这是由Anthropic公司提出并被业内广为接纳的方法。通过为模型设定一系列伦理原则,引导其生成符合这些原则的文本内容。这些原则包括改善模型的输出,避免有害、有偏见或不准确的回应。在实际应用中,这意味着Claude 3在处理用户输入时会更加谨慎,尤其是在涉及敏感话题时,能够拒绝不当的请求,同时在不确定时表达出其局限性,避免误导用户。

Claude 3通过AI生成的数据和反馈,实现了对AI模型的安全和伦理增强效果。通过自我批评和修订,以及基于Constitutional AI原则的强化学习,模型学会了在不依赖人类标签的情况下,自我改进以减少有害输出。这种方法提高了AI的透明度和可控性,成就了Anthropic公司在市场上负责任的形象,而对合成数据的有效利用,也被认为是突破模型能力上限的重要路径

此外,Anthropic在训练Claude 3时对数据来源进行了严格的筛选和清洗,确保模型不会从潜在的风险数据中学习。公司遵循行业最佳实践,尊重网站运营者的robots.txt指令,不访问受密码保护或需要登录的页面,并且不绕过CAPTCHA控制。这种对数据来源的尽职调查和透明运营,进一步增强了模型的安全性和可靠性。Claude 3的这些安全特性,不仅提高了用户对AI系统的信任度,也为AI技术的健康发展提供了坚实的基础。

行业影响与竞争格局判断

1. Claude 3并未扩大中美技术差距,但其专业能力提升和安全治理兼顾并重的发展思路值得参考借鉴

Claude 3的推出,并未明显扩大中美在大模型领域的技术差距,但确实为全球AI技术的发展树立了新的标杆。Anthropic的Claude 3,与OpenAI的GPT-4、Google的Gemini 1.5 Pro等模型一起,构成了当前大模型技术的前沿阵营。这些模型在推理能力、长文本理解和多模态处理等方面的进步,展示了AI技术的快速演进和应用潜力。Claude 3的出现,不仅意味着其在技术层面的领先,还在于其为全球AI技术的安全性和伦理性树立了新的标准。在技术创新的同时,也强调在伦理原则指导下的文本生成,提升AI输出的质量和可靠性。对于中国的大模型厂商而言,Claude 3的发布不仅是技术上的挑战,还有在安全和伦理应用实践上的启示。

2. 对大模型能力的检验,正在从单纯刷榜转化为关注其中的“北极星指标”和真实领域的应用

随着AI技术的深入发展,用户很难仅凭简单问答判断大模型的性能优劣,业界也不再仅仅关注模型在基准测试中的排名,而是更加重视模型在实际应用场景中的表现,尤其是那些能够体现模型成长性和适用度的“北极星指标”,包括模型的推理和泛化能力、长上下文处理能力以及多模态理解能力等。这些能力的提升,直接关系到模型在金融、医疗、法律等专业领域的实际应用效果,也更能检验大模型的真实能力。

3. 再次验证“基础大模型+公共云”的模式对于大模型持续领先的价值意义

Claude 3与亚马逊AWS、GPT-4与微软Azure、Gemini 1.5 pro与谷歌GCP的强强联合,展示了全球最强大的三款大模型的背后依托的恰好是全球最大的三家云厂商的万卡+GPU集群能力。通过利用这些云平台提供的庞大计算资源和先进的技术基础设施,基础大模型能够进行更大规模的数据训练和更复杂的算法迭代。这种模式不仅加速了模型的研发进程,还提高了模型的性能和可靠性,使得初创企业也不受底层复杂算力技术架构的限制,可全力关注模型本身训练提升。

通义千问大模型与阿里云的结合,也是“基础大模型+公共云”模式的实践样例。依靠阿里云提供的庞大计算资源和先进技术支持,通义千问得以保持强大的竞争力与发展空间,展现出中国在人工智能领域的发展潜力和商业韧性。

4. 模型的全球竞争是一场马拉松比赛,需要长远布局和战略定力

在Claude 3发布同时,OpenAI发布视频生成模型Sora,欧洲初创企业发布Mistral闭源版本,并获得微软投资。后续,拥有30万张GPU和优秀算法工程人才的Meta将发布的Llama 3,以及传言中OpenAI早已训练好但尚未发布的GPT5也将陆续发布。在如此快速、剧烈、你追我赶的全球大模型高速发展时期,我们固然需要正视当下 “切片”上的现实差距,但更需要从动态发展的视角来审视整个竞争格局。

在全球大模型技术的竞赛中,中国人工智能需要长远布局和战略定力,因为这场竞赛并非一时的短跑冲刺,而是一场考验耐力与创新力的马拉松。关键不在于短期内的技术差距,而在于持续的技术创新、人才培养和生态系统的投入和建设,以确保在这场长跑中保持竞争力和创新活力,在全球AI领域实现持续的领先和突破。

责编|崇修(转载及媒体合作请评论区或邮箱留言)