金磊 发自 凹非寺
量子位 | 公众号 QbitAI

字节跳动,终于摘下了自家大模型的神秘面纱。

就在刚刚,旗下的火山引擎第一次正式亮相了豆包大模型家族:一口气直接祭出了9个成员。

打开网易新闻 查看更多图片

其中,大模型家族中最为核心的便是豆包通用模型,分为两个尺寸:

  • 大杯:豆包通用模型pro,窗口尺寸最大可达128K,全系列可精调。
  • 小杯:豆包通用模型lite,有较快的响应速度。

令人非常意外的是,作为大模型亮相的发布会,火山引擎与其他大模型厂商的“路数”截然不同——

没有榜单分数,没有参数规模!

而且价格,更是成了让现场观众“哇声一片”的大亮点,和其它大模型相比:

  • 小于32K窗口尺寸:豆包通用模型pro,只要0.0008元/千tokens,比行业价格低99.3%
  • 128K窗口尺寸:豆包通用模型pro,只要0.005元/千tokens,比行业价格低95.8%

打开网易新闻 查看更多图片

做个简单的换算,就是1元=1250000tokens!

主打的就是落地效果,让人人都能用起来才是硬道理。

为何会如此?纵观整场发布会,可以总结火山引擎此举背后的逻辑为:

只有最大的使用量,才能打磨出最好的大模型。

据了解,豆包大模型自去年8月份上线以来,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。

不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。

因此,我们可以把火山引擎在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。

一言蔽之,大模型好不好,用一下就知道了。

例如此前各家大模型都在卷的超长上下文窗口这件事上,其实豆包通用模型这次所发布的128K,在数据上并没有很惊艳。

但这个量级对于日常的使用来说是已经足够的,所以字节跳动便将更多的精力放到了“如何用好”,也就是此次提到的精调。

例如我们在一篇20万字文章的随机一个位置,插入与原文无关的句子:

高端的猎人,往往以猎物的形式出现。

然后将文档上传给豆包,让它基于这篇文章来回答“高端的猎人会以什么姿势出现”,它就能精准的根据我们插入那句话来作答。

打开网易新闻 查看更多图片

由此可见,在128K长上下文窗口+精调加持下的豆包通用模型,已经是可以精准应对超长文本的任务了。

不过这也仅仅是此次火山引擎大模型能力的一隅,我们继续往下看。

更像人,也更懂人

除了文本对话之外,语音,也是豆包大模型家族中重要的组成部分,与之相关的成员就有三位:

  • 语音合成模型
  • 声音复刻模型
  • 语音识别模型

例如在语音合成这件事上,豆包的大模型现在主打的就是一个超级自然更像人;话不多说,我们直接听一下:

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

不难听出,AI合成的说话效果已经是逼近真人的水平,不再是以往冷冰冰的“一听就是AI”。

而且它还能根据上下文来把控说话过程中的停顿感和情绪等等;多种语言切换也不在话下。

据了解,火山引擎依托大模型构建的音色矩阵,还能表现出哭腔等更加复杂的人类情绪;若是让这样的AI给你“念书”听,那妥妥就是沉浸式的了:

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

克隆声音方面,豆包声音复刻模型背后的MegaTTS技术这次也有了新升级——

在音色相似度、声音自然度和多语种表现力上都有了大幅的能力提升。

同样的,我们还是直接来听一下效果:

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

如何?是不是原声音和克隆出来的声音真假难辨了?

更重要的是,无论是克隆多么怪异或多样的原声,仅需5秒!并且现在在豆包APP上就可以实现:

打开网易新闻 查看更多图片

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

由此一来,以后若是在工作上遇到需要用自己的声音“出镜”的事情,即便不会说外语也是不用怕了。

语音识别方面,在升级的豆包大模型能力加持下,即便是在嘈杂的环境之下,也可以根据上下文进行丝滑的对话。

例如我们就在放英文歌的环境中,同样用英语与豆包做了交流:

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

据了解,豆包语音识别模型相比小模型,识别错误率已经降低了30%;在音乐、科技、教育、医疗等垂直领域识别错误率更是降低50%以上。

但如果只是上述这样简单的对话交流,或许有些过于单调、莫得感情。

而豆包大模型家族中的另一位成员——角色扮演模型,恰好解决了这个问题。

例如我们可以跨时空跟李白对话一番:

视频地址:https://mp.weixin.qq.com/s/_mycwh_cJ5mS2bKuATW8cg

具体而言,这个功能是豆包APP中的智能体,使用的是升级后的豆包角色扮演模型,加强了它更个性化的人设遵循、更自然的聊天和更好的共情能力。

从上面的例子中,我们就能感受到“AI李白”不仅说话的风格富有诗意,对话内容也是高度相扣。

而诸如此类的智能体,豆包APP里可谓是数不胜数,比如霸道校草、狠辣世家独女、知心姐姐、财神……嗯,有点意思。

总而言之,现在跟豆包交流起来的整体感觉,就是越来越像人了。

除此之外,豆包大模型在文生图等能力上也做了升级;这个功能可以在对话窗口直接输入prompt,也可以在智能体广场中选择自己喜欢的类型。

同样的,升级后的效果如何,我们还是直接上测试的生成结果:

当然,如果没有自己喜欢的智能体,豆包APP中也支持DIY,只需简单几个步骤就能创建的那种。

而对于在学习和工作中更为实用、功能更加复杂的AI应用,此次火山引擎也公布了一站式AI应用开发平台扣子(coze)背后的大模型:

  • Function Call模型:擅长使用插件和工具,支持扣子的主力模型。
  • 向量化模型:训练了大量文本,涵盖不同行业,泛化能力强,支持中英双语语料混合检索。

在使用方面,依旧是主打一个简单、高效:无论你有没有编程背景,都是“一句话+点点点”的事情。

不论你有什么样的需求,似乎总有一款扣子bot能够满足你。

例如想快速在arXiv上找到想要搜索的论文,那么我们只需在创建智能体的时候填写需求即可:

即使后续过程中不会优化prompt也没有关系,扣子平台会一键自动帮你生成:

如果想让AI智能体的能力更加彪悍,我们还可以在海量插件中选择适合自己需求的一个或多个插件:

在插件之外,扣子平台也从更多的维度提供了优化的方案,例如工作流、触发器、变量、数据库、长期记忆等等,让AI应用可以变得更加个性化和本地化。

而上述的整个过程,也仅仅是几分钟的事情而已。

不难发现火山引擎已经在To C的大模型应用上做到了高效且方方面面,但与此同时,在To B上,火山引擎亦有大动作。

面向产业:升级火山方舟

火山引擎于去年6月份发布的大模型服务(MaaS)平台——火山方舟,今天正式步入2.0时代。

特点上同样是沿袭高效、多样、简易和安全的特点,主打的就是让企业通过一站式的方式让大模型应用快速落地。

从整体功能和流程上来看,企业使用火山方舟可以分为四步。

第一步:挑选模型

企业首先要做的就是根据自己的业务需求,在模型广场中的众多“顶流”大模型里pick适合自己的那款。

第二步:体验模型

适不适合自己的业务,还是得上手体验才能知晓。

因此火山方舟平台也给企业发放“体验卡”,可以快速体验各个模型的实际表现效果,探索它们在语言、图像等方面的能力。

第三步:加工模型

企业在体验完心仪的大模型之后,火山方舟还提供“加工处理”的服务。

具体而言,就是通过专业的训练、推理、评测与精调功能,快速构建并使用专属大模型服务。

第四步:模型上岗

在一切工作准备就绪之后,就可以真正地让心仪的大模型去“上岗”了。

整个过程看下来,火山方舟就宛如一个大模型工厂,不仅提供原料,还包揽了加工和售后的工作。

而深入到具体的操作上,基于火山方舟的升级,火山引擎还正式发布了扣子专业版,是一个企业级的AI应用开发平台。

它的一大特点便是在扣子可视化灵活编程智能体的能力基础之上,还提供了企业级SLA和多种高级特性。

这么做的目的还是让AI应用的落地变得更加简单,也有助于企业将精力更多地聚焦在创新。

那么最后一个问题是:毕竟要面向的是产业,火山方舟,它够靠谱吗?

对此,火山引擎也给出了它在稳定性和安全性等方面的解法。

首先是在算力层面,火山方舟依托火山引擎的海量GPU资源池和训推一体潮汐调度能力,通过软硬一体的系统优化,可在2分钟内,完成一千张GPU卡从训练状态到推理serving状态的弹性调度,可以有效支撑突发流量和业务高峰,并为企业降低成本。

其次在算法层面,火山方舟支持豆包大模型同款的SFT训练引擎,精调完成的模型,3秒钟即可调度为可serving状态,精调后模型在TPM支撑能力、推理延迟和价格等方面,和基础模型没有差别,极大地方便您进行后续效果评估、线上业务serving灰度和逐步放量,提升大模型精调算法的迭代效率。

最后在安全层面上,火山方舟主打的就是一个公开透明,通过自研安全沙箱将prompt数据端到端地加密保护起来,防止在训练和推理阶段的恶意攻击和数据泄露,并且提供透明审计中心,实现数据流的可控和可审计。

当然,每个企业用户定然希望自己的大模型服务是独一无二的,火山引擎的三大插件正是可以提供差异化的关键点:

  • 联网插件:提供头条抖音同款搜索能力,实时连接海量优质互联网数据,不断从新的数据和信息中学习,从而提高其性能和适应性,同时使用文本、图像、语音等多模态交互方式。
  • 内容插件:提供头条抖音同源海量内容,支持多模态交互,提供基于意图的垂类内容信息检索,内容时效检索更强,帮助大模型深入理解、检索和生成内容。
  • RAG知识库插件:提供毫秒级百亿规模的高性能检索,秒级流式知识库索引更新,内嵌豆包向量化模型,提高搜索的相关性和准确性。

总而言之,火山引擎此次不论是发布的豆包大模型家族,还是升级的火山方舟,甚至是正常发布会的基调,所剑指的目标都非常的明确和清晰。

用起来,才是硬道理

没错,就是“用起来,才是硬道理”。

而这也正是火山引擎与众多大模型玩家在战略上最明显的差异所在——

大多数玩家都是将大模型和应用产品一道发布;而火山引擎则是恰恰相反,用起来了之后再做正式的全面发布。

究其原因,也正是我们最开始提到的那句话:

只有最大的使用量,才能打磨出最好模型。

至于为什么不放出测评榜单和参数规模等业界似乎早已习惯做比较的指标,在量子位与火山引擎智能算法负责人、火山方舟负责人吴迪的交流过程中,他给出了一个非常直给的解释:

我们更希望跟昨天的自己做比较。
我们更看重的是用户使用的体验和效果好不好;而不是那些优秀的分数。
客户自己就能判断出什么是最合适的模型。

回答很简单,很自信,但这种底气又是从何而来?

一是场景。

大模型需要用户的反馈来优化已经是业界达成的共识,在这方面,火山引擎依靠字节跳动有着天然的优势。

据了解,豆包大模型是通过字节跳动内部50+业务、多场景实践验证而持续做着迭代和优化,可以说是举整个公司的场景All in到大模型里面了。

二是技术。

字节跳动的推荐算法也是业界公认的强者,而火山引擎目前的核心算法服务团队(由火山引擎大模型算法服务负责人王科带队),正是打下字节跳动起家的技术的原班人马。

其技术实力,可见一斑。

三是市场。

据了解,豆包APP累计下载量已经超过了1亿,受用户欢迎程度可见一斑。

在To B方面,火山引擎也与智能终端、汽车、金融、消费等行业的众多企业已经展开了合作,包括OPPO、vivo、小米、荣耀、三星、华硕、招行、捷途、吉利、北汽、智己、广汽、东风本田、海底捞、飞鹤等。

并且火山引擎在以使用量来优化大模型这条路上并不是仅依靠自身庞大的业务场景,而是与上述合作伙伴们一道共同来打磨,形成了一个闭环的过程。

那么最后,我们又该如何评价火山引擎的大模型?

或许就是:更大用量、更低价格、更多场景、更懂人、更聪明。

而这场发布会的主旋律也再次印证了当下大模型时代“应用为王”的趋势——

谁能用得更好,谁就能笑到最后。