豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

智东西作者 ZeR0编辑漠影

智东西12月18日报道，火山引擎今日宣布豆包大模型家族全面升级，推出视频理解模型、3D生成模型，升级文生图模型、音乐模型、通用模型pro等，还预告将在2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版，豆包端到端实时语音模型也将很快上线。

其中，豆包·视频理解模型的输入价格定为0.003元/千Tokens，比行业价格降低85%，相当于1块钱能同时处理284张720P图片。该模型已经接入豆包App和PC端产品。

豆包·3D生成模型也正式发布，与火山引擎数字孪生平台veOmniverse结合使用可高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

其它多款豆包模型均迎来升级：通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型升级到生成3分钟的完整作品；文生图模型2.1版本在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

同时，火山引擎升级了火山方舟、扣子、HiAgent三款平台产品。

火山方舟发布大模型记忆方案、Prefix Cache和Session Cache API、全域AI搜索，以帮助企业构建好自身的AI能力中心，高效开发AI应用。

扣子1.5版本提供全新AI应用开发环境、更强的多模态能力，推出精品模版商店，降低构建AI应用的难度；HiAgent 1.5版本提供100+个行业应用模版，提供全新GraphRAG能力，可视化更清晰。

火山引擎总裁谭待还公布了豆包大模型的最新成绩单：日均tokens增长使用量已超过4万亿，较7个月前首次发布时增长了33倍。

大模型应用正加速向行业渗透。据悉，豆包大模型已与八成主流汽车品牌合作，过去7个月汽车行业日均Tokens消耗增长了50倍；并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

豆包大模型也获得了众多企业客户青睐：最近3个月，在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

一、视频理解模型搞定复杂逻辑推理，3D生成模型1分钟生成高质量资产

豆包·视频理解模型支持输入文本和图像问题，不仅能精准识别和理解视觉内容，还具备推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。

火山引擎Force大会开场就播放了一段展示其视频理解能力的视频：对手机摄像头扫过的场景，实时提问“这是什么”、“为什么”、“在哪里能买到”，豆包不仅能识物解答，还能读报告、读代码、解读画作、帮你在屋子里找物品、推荐穿搭，以及根据场景进行联想推理。在识别代码时，你可以圈出问题区域，让豆包做针对性分析。

具体而言，豆包·视频理解模型有如下特点：

1）更强视觉内容理解能力：一眼识别小动物的影子并推断出这是什么动物，识别丁达尔效应等自然知识并解释背后原理，识别地标建筑、生活中不太熟悉的物品并给出科普信息。

2）更强理解和推理能力：擅长图表、数学、逻辑、代码推理。

3）更细腻的视觉描述和创作能力：描述图像细节，进行图像故事创作、诗歌创作；可遵循指令对细节进行描述，例如能识别出被全选位置的物体是孔明灯。

据火山引擎总裁谭待分享，火山引擎已邀请数百家企业测试该模型，并发现了一些有价值的场景，比如教育场景的判卷指导、作文批改、儿童陪伴等，旅游场景的目的地推荐、外文菜单识别、著名建筑识别及讲解；电商营销场景的拍照找同款、商品搭配建议、广告种草文案等。

豆包·3D生成模型与火山引擎数字孪生平台veOmniverse结合，成为一款支持AIGC创作的物理世界仿真模拟器。

大会现场演示了通过veOmniverse编辑器和文生3D快速搭建工厂车间场景，用户输入文本就能实时生成3D场景和模型。两者可实现云上协同，模型师通过文生3D快速批量生成模型并上传至云空间，布局师即可实时调用并完成场景设计，显著提升创作效率与协作体验。

该模型可以高效完成智能训练、数据合成和数字资产制作，支持文生3D、图生3D、多模态生成，1分钟即可生成高保真高质量3D资产，可实现复杂物品、物品组合大规模场景生成，并支持多模态3D资产编辑。

二、一句话轻松P图&生成海报，音乐模型已落地vivo相册一键成片

会上，火山引擎宣布升级文生图模型、音乐模型、通用模型pro等模型。

文生图模型现支持一键P图和一键海报。

特别是“一句话轻松生成海报”功能，首次实现精准中文文字生成，并能够实现更全面的描述和更精美的画面和排版。

用户可以涂抹海报中的文字，输入新文字即可作文字修改。涂改前后，整张海报能够保持很好的一致性，不会影响原画面。

一键P图是指用户只需输入简单的自然语言，就能对图像进行换装、美化、涂抹、风格转化等修图工作，可以用语言精准控制目标，避免误伤，还能一次执行多个P图任务。

借助视频生成模型，还能将静态海报变成动态海报，让海报中的主体动起来，更具生命力。

新升级的豆包·音乐生成模型支持输入歌词生成音乐，从1分钟创作升级为包括前奏、主歌、副歌、间奏、过渡段等完整的3分钟全曲创作。

新模型能合理运用旋律、节奏、和声等信息，使全曲保持连贯性。如果用户对生成的歌词不满意，还能进行局部修改。

vivo手机2024年10月发布的OriginOS 5就采用了豆包音乐模型，来为相册“一键成片”提供音乐创作能力。模型可根据用户提供的素材进行AI词曲创作。

豆包通用模型pro也进一步升级，全面对齐GPT-4o的能力，甚至在部分复杂场景任务中效果更好，而使用价格只有GPT-4o的1/8。

在专业知识领域，豆包Pro相比五月版本提升了54个百分点，略微领先于gpt-4o；在综合任务处理能力上提升32个百分点，和GPT-4o持平；在指令遵循提升9%，在推理上提升13%，在数学上则提升43%。

中手游、深维智信、威科、赛力斯汽车、叫叫等企业都使用该模型实现了大幅降本增效。例如中手游打造了众多游戏智能NPC，模型调用量半年内上涨了400倍；威科在法务领域使用豆包根据指令精准地实现各种判定结果信息抽取，抽取精度达到95%以上，调用量上涨800倍。

三、火山方舟、扣子、HiAgent上新，再降AI开发门槛

火山引擎升级了火山方舟、扣子和HiAgent三款平台产品，包括发布大模型记忆方案、Prefix Cache和Session Cache API，以降低延迟和成本，还有全域AI搜索。

火山方舟平台提供全栈MaaS能力，支持模型精调、推理、评测等全方位功能，也提供了丰富的插件能力、扩展API和高代码解决方案。其大模型记忆方案能让大模型更懂用户，具有三大特点：精准效果，超大规模亿级记忆片段，更快响应速度&更低使用成本。

上下文缓存是兼顾推理成本和响应速度的关键。新发布的Prefix Cache和Session Cache API，创国内云厂商首例，无需重复传输对话就能达到多轮上下文的效果，将用户体验延迟减少50%，并给出了很有竞争力的缓存命中定价，可将企业使用缓存成本降低80%。

全域AI搜索具备场景化搜索推荐一体化、企业私域信息整合等服务。

火山引擎AI搜索推荐引擎的特点包括：1）有着强大的模型基础能力支撑，根植于火山方舟的系统能力；2）从第一天开始就在强调搜索推荐一体化，来帮助客户实现更更精准、更深度的个性化体验；3）多模态，支持文本、图像、视频、音频等多模态的对话式输入输出；4）百亿库容量、超大规模吞吐毫秒级检索延迟、更多产品覆盖；5）适用于电商、信息检索、娱乐等全场景。

例如该引擎可用于电商营销场景，支持个性化推荐商品页面链接、指示AI下单；也可以用在企业信息检索场景中，改进企业内部的信息效率流转和生产力。

完整的AI搜索和推荐能力将在未来几个月陆续在火山引擎公开使用。

火山引擎还进一步升级了基于互联网搜索的AI增强插件，可一键触达全域信息，在极短时间内总结呈现搜索结果，支持多模态内容和丰富的呈现方式，以帮助企业做出更有吸引力的多模态交互。

扣子已成为中国最具活力的智能体开发社区之一，有超过100万的活跃开发者，创建了200万+各具特色的智能体。

今天，火山引擎正式发布扣子1.5版本，提供全新的应用开发环境，支持GUI搭建界面，并可一键发布为小程序、H5、API等多种应用形态，还增强了多模态能力，全面升级语音识别和合成能力，并与火山引擎视频云的RTC集成，提供了高质量的实时语音通话能力。

此外，扣子1.5推出了模板商店，提供了大量可一键复制的精品模板，进一步降低了构建AI应用的难度。比如和府捞面的产品经理通过扣子完成了顾客点评分析智能体，苏泊尔通过扣子将智能体引入到用户的食谱创作和居家养生过程中，天文学界的科研工作者们用扣子搭建智能体来辅助科研。

企业构建自身的AI能力中心，需要解决好安全监管、数据治理、应用落地、系统集成等问题。火山引擎HiAgent支持企业私有部署和混合部署模式，能够满足复杂的监管合规要求。

HiAgent可以与企业现有系统打通，把企业内部或外部的系统接口、工具等封装为插件，以插件中心形式提供调用，实现智能体和现有业务系统的集成。

新发布的HiAgent 1.5版本，依靠过往一年的实践，从企业级真实应用场景中，沉淀出100+行业应用模板，供企业开箱即用，敏捷落地；提供全新的GraphRAG能力，通过更强的知识融合效果，帮助企业打造AI知识助手，让知识检索更精准、知识回答更丰富、可视化更加清晰。

HiAgent已为华泰证券、飞鹤集团、浙江大学、宁德时代、国家管网等众多企业和高校提供了服务。

结语：下一个十年，计算范式将进入到AI云原生的新时代

“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。”谭待说。

他谈道，豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。

火山引擎团队认为下一个十年，计算范式应该从云原生，进入到AI云原生的新时代。基于AI云原生的理念，火山引擎推出新一代计算、网络、存储和和安全产品。

在计算层面，火山引擎GPU实例，通过vRDMA网络，支持大规模并行计算和P/D分离推理架构，显著提升训练和推理效率，降低成本；在存储层面，新推出的EIC弹性极速缓存，能够实现GPU直连，使大模型推理时延降低至1/50、成本降低20%；在安全层面，火山将推出PCC私密云服务，构建大模型的可信应用体系。基于PCC，企业能够实现用户数据在云上推理的端到端加密，而且性能很好，推理时延比明文模式的差异在5%以内。

在谭待看来，豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为每一家企业都能用得起、用得好的普惠科技。

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

2024，大模型杀进“决赛圈”

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

真把自己「当个人」的AI，扫去了我的社交贫困

MIT开发新方法，无需从头训练机器人即可执行复杂任务

语言游戏让AI自我进化，谷歌DeepMind推出苏格拉底式学习

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

字节AI版小李子一开口：黄风岭，八百里

“AI和自动驾驶至少值1万亿美元”！“死多头”Dan Ives大幅上调特斯拉目标价至515美元

购物车内含高科技，让人无法推出商场大门，网友：这是什么原理

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

豆包电脑版，原地封神了！

全球首个全模态理解开源端模型：图文音啥都会！300%推理速度领先

只对豆包夹子音的头哥，他的温柔是她的专属呀

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

浙大一教师伪造剑桥邀请函致20余名学生被英国拒签十年？学院通报

雅马哈XJR400：53匹DOHC风冷四缸、双摇篮车架的圆灯典范之作

千万级大模型项目，兰州市安宁区文化体育和旅游局（招） |「产业AI头条」