一块钱处理284张图片，字节上架新模型

记者丨何己派编辑丨鄢子为

4万亿，这是豆包通用模型的日均tokens使用量。

从5月首次发布到12月中旬，这个数字增长了33倍。

作为字节跳动发力AI大模型的核心武器，豆包出场晚、野心大。

为扶其上马，字节带头掀起行业第一轮降价潮，同时产品、服务和生态快速裂变，充实矩阵。

在12月18日举办的火山引擎Force大会上，字节发布豆包视觉理解、3D生成等新模型，并公布了一次到位的价格，视觉理解模型千tokens输入价格，仅为3厘。

按此计算，一元钱就可处理284张720P的图片，比行业价格便宜85%。

“市场就是要充分竞争，做得好才能活下来。”接受《21CBR》等媒体采访时，火山引擎总裁谭待提到，新模型发布后，豆包的增速将更快。

装上眼睛

这次发布会，字节一口气更新了豆包多款产品，覆盖通用模型及多个垂直领域模型，看得人眼花缭乱。

更值得拿出来说道一二的，是首次亮相的新成员，视觉理解模型。

据谭待介绍，该模型不仅能精准识别视觉内容，还具备理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。

其还拥有视觉描述和创作能力。

一句话总结，“豆包”睁眼看物理世界了。

人所接收的信息里，超八成来自视觉。对大模型来说，只有做好视觉理解，才有能力处理好真实世界的信息。

谭待现场展示了多个案例。

谭待

给一张动物影子的照片，视觉理解模型能识别出这是一只猫；给一张桥的图，模型能看出是港珠澳大桥；能理解图片里的数学和物理题目，给出答案和思路。

此前，该模型已接入豆包App和PC端产品。谭待透露，过去两个月，字节邀请了数百家企业，测试豆包视觉理解模型。

其可应用的场景很多。

比如，教育场景里，豆包可以让拍照搜题更智能，批改孩子的数学作业，优化作文表述，减轻家长辅导作业的负担。

快速扩列

从2024年5月豆包诞生，到12月的Force大会，7个月时间，字节大模型产品整装列队，组成“全家桶”。

除了新发布的视觉理解模型，重要的产品更新还包括：

豆包通用模型pro全面对齐GPT-4o，使用价格仅为后者的1/8；

音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；

文生图模型2.1版本，首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

谭待的演讲末尾，还以“One more thing”做了一个特别预告，发布一个1分钟的教育应用场景视频。

2025年春季，将推出具备长视频生成能力的视频生成模型1.5版，豆包端到端实时语音模型也将很快上线。

由此，多角色演绎、方言转换等新能力，即将解锁。

这一轮大模型竞速，起步较晚的字节，为何着急赶路？

“我们每一个模型的推出，都不算市面上最早的，但口碑和增长都不错。”

谭待提到，聊天是大模型一个基础功能，在此之上，必须加上深度推理、图像视觉理解等各种各样的功能，才能处理复杂任务。

目前，豆包大模型已经与八成主流汽车品牌合作，并接入多家手机、PC等智能终端，覆盖约3亿台终端设备。

来自智能终端的豆包大模型调用量，半年时间内增长100倍。

与企业生产力相关的场景方面，字节也披露了一系列数字。

最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍。

实用至上

“百模大战”，从算力打到应用。但在谭待眼里，谈竞争，为时过早。

“我现在不太关心竞争。市场处于非常早期的阶段，可能刚开发出来千分之一。”

他表示，局部竞争肯定有，但不重要，更关键的，是看用户哪些需求没有被满足，产品和解决方案能否做得好、成本低。

让大模型更好用、迅速落地，才是字节眼前的要紧事。如谭待所说，现阶段，他不关注大模型能带动多少云的收入，看的是有多少客户用了豆包大模型、用得有多深。

来源：图虫

按谭待总结，大模型竞技场，后来者字节的市场份额，领先同行，其信心来自三点：

一是市场足够大；二是字节有规模优势，把手机、汽车、金融等外部客户，以及抖音、头条上的内部客户，统一起来建设，都跑在火山引擎上；三是目标明确，要在新的技术变革里做到第一。

在他看来，大模型的特别之处在于，以前的技术在To C端和To B端，都是割裂的，大模型能化二为一，底层都用的一套技术。

由此，To B的商业模式，会发生很大的变化。

采用一个大模型，决策者能直观感受到技术的好与不好，不像以前，只能靠听PPT汇报、看案例来了解。

“这是我们相信豆包能做好的一个重要因素。大家用得最多的是豆包APP，企业家大概率也会选择豆包大模型。”谭待说。

火山引擎下了一个新判断，下个十年，计算范式会从云原生进入到AI云原生的新时代。

“2024年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事，就是确保自己要上车。”谭待说。

图片来源：火山引擎，除标注外

一块钱处理284张图片，字节上架新模型

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

字节AI版小李子一开口：黄风岭，八百里

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

中国武器闷声“发大财”，海外用户争相抢购，直接抢下美国大笔订单

变态逻辑大赏！借东西动手，打一顿就开心？

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

梦幻西游：服战罕见双物理，渔岛7回合速推对手，就是硬件碾压！

不懂就问，在寸土寸金的香港，这个地方算大吗？

小米增程SUV曝光，用户可自行组装硬件

个人养老金账户“被开户”多家银行回应

医院急救室女子要转院情绪失控医生这个门根本出不去出去人就没了

纯手工打造的高铁模型，放在高速路上添几个轮子，看会不会跑？

某直播现场被曝光，眼前一幕太气愤，以为的好货竟都是模型

你的下一个浏览器，可以是豆包电脑版！

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

ChatGPT拒绝谈论这个人，没人知道为什么

阿萨德逃到莫斯科前，送给以色列一份清单，标注叙军所有重武器

豆包电脑版，原地封神了！