火山引擎Force大会上发布豆包新模型；即梦AI图片模型2.1上线；Meta推出 Apollo 开源模型|极新早报

“人类所有的力量，只是耐心加上时间的混合，所谓强者，是既有意志，又能等待时机。”

文｜小鱼

编辑 | 云舒

出品｜极新

要点速览

1、字节即梦 AI 图片模型 2.1 上线，号称“一句话生成海报”

2、Meta 推出 Apollo 开源模型，让 AI “看懂”视频

3、字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

4、消息称“通义”应用团队从阿里云分拆，并入阿里智能信息事业群

5、彩讯股份：与火山引擎合作公司Rich AIBox可对接其豆包大模型

6、科大讯飞：与华为合作提供Mate70通话摘要等技术支持

▌IPO/投融资

1、AI视频生成大模型及应用研发商「爱诗科技」完成2亿人民币A3轮/A4轮融资，投资方为顺禧基金，国科投资，光源资本。

爱诗科技是一家AI视频生成大模型及应用研发商，专注于视觉多模态生成式大模型的开发与应用研究，致力于构建具有多模态能力的生成式大模型，以满足AGI时代视频领域的全新创作及消费需求，推动AI视频生成技术的普惠。公司的大模型产品能够处理和理解视觉、自然语言和其他模态数据的复杂关联，建立更深入、全面的视觉多模态理解和生成能力，完成更高水平、高质量的视觉生成任务。

2、神经系统疾病智能诊疗解决方案提供商「中科睿医」完成数千万人民币A+轮融资，由中国国新领投。

中科睿医是一家神经系统疾病智能诊疗解决方案提供商，公司基于荣获国家科学技术进步奖的神经科学前沿成果，集聚产学研一体化的医工交叉研发实力，提供面向神经系统疾病筛、诊、治、研全场景的智能科技解决方案。中科睿医围绕神经功能定量测评与脑功能干预重建两大方向，已建立面向脑认知类疾病定量评价与辅助诊断、运动类疾病定量评价与辅助诊断、眼球运动功能检测、脑功能干预训练四大研发与转化平台及十余种细分产品管线。

3、AI眼镜研发商「闪极科技」完成数千万人民币A+轮融资，投资方为绿洲资本Vitalbridge。

闪极科技是一家AI眼镜研发商，进军AI眼镜行业之前，该公司的主要业务是高端充储能及摄影周边器材领域。

4、智能触觉解决方案提供商「钛方科技」完成B+轮融资，投资方为联想创投，松禾资本。

钛方科技是一家智能触觉解决方案提供商，专注于以弹性波为核心技术的触觉感知产品的研发与产业化，服务于智能设备(PC、汽车、触摸屏、手机、耳机）的交互与感知。公司自主研发了以“传感器+算法+芯片”的全套解决方案，掌握了弹性波传感器、芯片与算法的全栈技术，拥有百余项专利，形成了以消费电子和汽车电子为主的两大业务板块。其主要产品包括笔记本压感触控、汽车智能感知、智能穿戴设备力度感应触控、中大尺寸触摸屏等。

▌科技要闻

1、字节即梦 AI 图片模型 2.1 上线，号称“一句话生成海报”

12 月 18 日消息，字节跳动旗下即梦 AI 宣布，全新图片模型 2.1 正式上线。支持通过简单的指令，控制文字的颜色和位置等元素，快速生成中英文图像海报。号称“一句话生成海报”。

即梦 AI 官方提供了常用提示词（Prompt）模板，即艺术风格 + 主体描述 + 文字排版：

艺术风格：确定画面整体基调，如写实风、插画风，或更具体的风格，如中国水墨风等
画面主体描述：聚焦主画面内容，例如描述海报中的人物正在做某件事，或具体的物品形态与状态等
文字排版描述：将文字内容放在双引号“”内，同时通过指令描述文字的位置、大小、颜色和风格，精准调整排版效果

附官方示例如下（官方称 prompt 为简化版本，主要提供核心信息供创作者参考，仅直接使用以下 prompt 可能无法生成一致或相似的海报）：（IT之家）

▲ Prompt：古典画风格，整体风格优雅且具有复古质感。整体设计充满浓厚的东方古典情调，同时兼具现代简约风格。

▲ Prompt：科幻影视风格的画面。画面采用超广角视角，从背后展示男子的身影，背景突出了火星景观的辽阔与孤寂。

▲ Prompt：一本鲜艳的橙色书籍代替了人物的头部，书的封面上是超现实未来感的人脸，环绕书籍的是夸张的金色卷发，为画面增添了一丝戏剧性。

2、Meta 推出 Apollo 开源模型，让 AI “看懂”视频

12 月 18 日消息，Meta 携手斯坦福大学，推出全新 AI 模型系列 Apollo，显著提升机器对视频的理解能力。

IT之家注：尽管人工智能在处理图像和文本方面取得了巨大进步，但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息，人工智能更难处理这些信息，不仅需要更多的计算能力，而且如何设计最佳 AI 视频解读系统，也存在诸多困难。

在视频处理方面，研究人员发现，保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件，一个处理单独的视频帧，而另一个跟踪对象和场景如何随时间变化。

此外，在处理后的视频片段之间添加时间戳，有助于模型理解视觉信息与文本描述之间的关系，保持时间感知。

在模型训练方面，团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练，按顺序激活模型的不同部分，比一次性训练所有部分效果更好。

此外 Meta 公司还不断优化数据组合，发现 10~14% 的文本数据，其余部分略微偏向视频内容，可以更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上均表现出色，较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型，而 Apollo-7B 超过更大参数的同类模型，Meta 已开源 Apollo 的代码和模型权重，并在 Hugging Face 平台提供公开演示。

（IT之家）

3、字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

12 月 18 日消息，IT之家从字节跳动官方获悉，在今日的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，为企业提供多模态大模型能力。豆包视觉理解模型千 tokens 输入价格仅为 3 厘，一元钱就可处理 284 张 720P 的图片，官方宣称比行业价格便宜 85％。

豆包 3D 生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台 veOmniverse 结合使用，可完成智能训练、数据合成和数字资产制作，官方称之为“一套支持 AIGC 创作的物理世界仿真模拟器”。

豆包大模型旗下多款产品也迎来了更新：

豆包通用模型 pro：全面对齐 GPT-4o，使用价格仅为后者的 1/8；
音乐模型：可生成 3 分钟的完整作品；
文生图模型 2.1 版本：精准生成汉字、一句话 P 图，已接入即梦 AI 和豆包 App。

此外，豆包将于明年春季推出具备更长视频生成能力的豆包视频生成模型 1.5 版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。（IT之家）

4、消息称“通义”应用团队从阿里云分拆，并入阿里智能信息事业群

12 月 18 日消息，《智能涌现》今日援引“多个独立信源”消息称，阿里旗下的 AI 应用“通义”近期从阿里云分拆，并入阿里智能信息事业群。

有知情人士称，此次调整包括通义 To C 方向的产品经理，以及相关的工程团队，一并调整至阿里智能信息事业群。调整后，通义 PC 及 App 团队与智能搜索产品“夸克”平级，原有的通义实验室，仍然留在阿里云体系内。

报道称，阿里旗下的大模型家族“通义”此前包括应用层的“通义”App、PC 端，均属于阿里云体系。其中，通义大模型家族由达摩院开发 —— 达摩院的主要职能，更偏向基础科学和创新性技术研究；而阿里云又是一个 To B 业务，也不适合投入进直面 To C 市场的应用开发和推广中。

阿里云官方对此暂无回应。

据此前报道，2024 年世界互联网大会乌镇峰会期间，阿里巴巴 CEO 吴泳铭在 11 月 21 日的互联网企业家论坛上表示，阿里巴巴目前已经发布了超过 100 个开源模型，累计下载量超过 4000 万次。基于“通义千问”模型进行二次开发的衍生模型数量已突破 7.8 万个，活跃开发者超过 800 万。吴泳铭表示，阿里云 API 调用价格在过去一年中下降了 97%，公司将继续努力降低 AI 算力的成本。（IT之家）

▌股市风云

1、彩讯股份：与火山引擎合作公司Rich AIBox可对接其豆包大模型

打开网易新闻查看更多图片

彩讯股份在互动平台表示，公司与字节跳动全资子公司北京火山引擎科技有限公司在5G消息CSP管理平台及数据智能、企业直播、AR及视频内容制作等方面有合作。同时，公司Rich AIBox作为一站式AI应用开发平台，可对接其豆包大模型，实现企业私域知识库的无缝衔接、多场景智能体的可视编排，助力企业快速构建AI应用。（财联社）

2、科大讯飞：与华为合作提供Mate70通话摘要等技术支持

打开网易新闻查看更多图片

科大讯飞在互动平台表示，讯飞与华为始终保持良好的合作与交流。华为mate70中的基于大模型的通话摘要功能、方言自由说功能以及全屋智能场景中的全屋广播等功能均由科大讯飞提供相关技术支持。（财联社)

▌好文推荐

“底层逻辑已经成型。”

回顾2024，大模型经历百模大战，底层技术的不断进化与革新，推动AIGC行业快速从概念走向实际应用场景，特别是在更多垂直场景中扮演着重要角色，如工业、医疗、文娱、消费、金融等场景，AIGC正以其独特优势加速行业革新。同时，出海是中国AI企业破除内卷的共识，在此过程中，如何将中国AI技术推向全球舞台并发展壮大，也是业界需要思考和关注的焦点。

在此背景下，今年2024极新AIGC峰会正式启动，将于2024年12月26日-27日在深圳、香港两地举办。峰会围绕“重度垂直”这一主题，将邀请AI产业、智能硬件、出海跨境等领域的知名企业家、投资人和专家学者，探讨AIGC在千行百业的深度应用与未来发展趋势，分享AI出海的方向和成功案例，为参会者提供宝贵的启示，助力AIGC行业打破内卷、发现新的增长机遇，共同推动中国AI技术出海，闪耀国际舞台。

点击跳转「重度垂直·2024极新AIGC峰会」~

点击跳转「2024极新AIGC榜单」~

更多干货分享敬请关注我们的公众号与视频号~超多精彩对话内容等待您的解锁！

扫码加入【极新】科技行业交流群，探索科技前沿趋势，本群适合创始人、CXO、行业高管。

关于极新：

极新是垂直于产业AI的创投和行业研究媒体，致力于陪伴和记录科技企业进步和产业成长。已与多家平台和创新企业深度对话和合作，包括华为云、阿里云、百度智能云、金山云、飞书、火山引擎、钉钉、东软、Zoho、容联云、百家云等平台企业，以及智谱AI、百川智能、格灵深瞳、深势科技、百图生科、瑞莱智慧、创客贴、生数科技等高成长公司。

2024投融资趋势追踪：| | | | | ||｜|

深度对话·创新&增长的源动力：| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | ｜

火山引擎Force大会上发布豆包新模型；即梦AI图片模型2.1上线；Meta推出 Apollo 开源模型|极新早报

AI爆程序员失业潮！小扎正开发编程智能体，「中级程序员」剩最后一年？

日活压力把大模型们逼成“资讯App”

多模态大语言模型空间智能新探索：单图或一句话，生成3D建模代码

四部门发文！这一AI“基石”产业有望迎20%复合增长

MIT开发新方法，无需从头训练机器人即可执行复杂任务

"没有AI我会难受至极"：大学生的智能工具依赖与适应

2025，Agent生死竞速

字节、美团“杀疯了”！联手投资00后大模型，“阻击”黄仁勋的物理AI世界｜钛媒体AGI

英伟达开源Cosmos：加速物理AI开发，直解人形机器人训练难点

o1已不是聊天模型了！SpaceX前工程师公开全新使用秘籍

最后的疯狂！美国公布史上最强 AI 芯片禁令，拜登：确保中国等对手无法轻易使用先进AI｜钛媒体AGI

最高工资322万！OpenAI开招机器人工程师

AI是否会终结传统搜索引擎？

拼出第一！

字节跳动携即梦AI「交卷」4

Meta搞出带触觉机器手，多模态操控精度提升94%

2025年洛杉矶超级山火，究竟为何难以扑灭？

美洛杉矶山火破坏性创历史！已经死亡24人！为何根本扑灭不了？

美国洛杉矶山火，到底有多恐怖？为什么无法扑灭？

全球顶尖大城市洛杉矶，为何会让山火肆虐？