豆包发布视觉模型，再掀多模态价格战

12月18日，在“火山引擎Force大会”上，字节跳动发布了豆包视觉理解模型，再次把价格战提上台前，这一次，是多模态大模型。

火山引擎总裁谭待表示，豆包视觉模型售价为千tokens输入0.003元，比行业平均价格便宜85％，相当于一元钱就可处理284张720P的图片。

此次，豆包发布的视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

谭待介绍，豆包视觉理解模型在判卷指导、作文批改、儿童陪伴等教育场景，目的地推荐、外文菜单识别、著名建筑识别及讲解等旅游场景，以及拍照找同款、商品搭配建议、广告种草文案等电商营销场景有较大的空间。目前，火山引擎已邀请数百家企业测试该模型。

和豆包视觉理解模型一同发布的，还有豆包3D生成模型。该模型与火山引擎数字孪生平台veOmniverse结合使用，据称可高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

今年5月，字节在对外发布豆包大模型时，曾经率先发起价格战，并引发了阿里、百度等多家厂商大模型跟进降价潮。最近几个月，豆包数据增长迅猛陡峭。字节跳动表示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

同时，豆包还在向各行业加速渗透。最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。（文|赵小天编辑|李不清）