在多模态落地应用加速的当下,智象未来还潜藏着怎样的商业潜力?
距离OpenAI发布文生视频模型Sora已过去近两年,中美两地的AIGC企业却呈现出截然不同的发展状态:一面是成本居高不下,始终无法铺开量的Sora2,和留存率几乎为零的SoraApp;另一面,是扎根在广阔的应用土壤上,渐入佳境的中国企业,在商业化上迎来全面爆发的局面。
《智能涌现》近日获悉,专注于视觉多模态的生成式AI创企智象未来2025年的全能营收已过1亿元。其C端产品vivago.ai同样在近期迎来了下载最高峰,其中,1月新增近千万用户,在全球100+国家和地区进入Google Play“视频播放与编辑”类别榜前10,已呈现出巨大的商业发展潜力。
自创办以来,智象未来先后发布了HiDream-I1图像生成大模型与HiDream-E1交互编辑模型,并在2025年4月全面开源,开源24小时内即登顶国际权威AI测评榜单Artificial Analysis。
这家从合肥出发的企业,通过自研的超百亿参数大模型、全球首创的扩散自回归架构,在生成质量与效率上找到了完美平衡。现阶段,其产品已在文创、影视、广告等领域广泛应用。
《智能涌现》独家获悉,智象未来融资进程再提速:B轮融资已进入交割阶段,下一轮TS已提前落袋,接近公司的核心知情人士透露,两轮融资均为数亿元量级。在AI视觉生成赛道竞争加剧的当下,智象未来凭借硬核技术实力与清晰的商业化路径,持续获得头部资本的重仓布局。
在多模态落地应用加速的当下,智象未来还潜藏着怎样的商业潜力?
最产业化的科学家,最落地的浪漫
从创立之初,智象未来就找到了一种务实的浪漫。创始人梅涛是加拿大工程院外籍院士,此前曾在微软任职长达12年。在多媒体分析和计算机视觉领域发表论文300多篇,先后15次荣获最佳国际论文奖。
但梅涛的经历又不止于学术。2018年,梅涛加入京东,任京东探索研究院副院长。这段职业,让他看到了从技术到商业化落地的通路。
在决定创办智象未来时,梅涛有过清晰的构想。一方面,多模态是实现通用AGI的最可能路径,这种观点后来也成为了行业共识。与此同时,在商业化前景上,多模态又比纯语言模型有着更为广阔的空间。“当前全球AIGC收入的50%-60%来自图片和视频相关应用,高于纯文本模型。2023年我们创业决策时,像Midjourney这样的多模态公司已通过SaaS工具证明了强大的商业化能力,清晰的验证了产品的市场契合度。”梅涛曾在2025年中对36氪表示。
而这恰恰是梅涛的主战场,在计算机视觉(CV)和多模态领域有着深厚的积淀。
不过,对于当时的中国创新企业来说,初入战场,Sora是摆在面前的一座大山,考虑到其对物理世界的还原程度和实现的惊艳效果,当时业内颇为期待的是,中国创企能否拿出可以与之匹敌的生成结果。
一场竞逐就此开启。在Sora发布后,仅用了半年时间,智象未来就发布自主研发的多模态大模型,2025年4月,智象未来更是一口气开源了图像生成大模型HiDream-I1与交互编辑模型HiDream-E1,打通从对话到图像创作的闭环。HiDream-I1在权威榜单Artificial Analysis中24小时内登顶,成为首个跻身全球第一梯队的中国自研生成式AI模型,并在图像质量、语义理解、艺术表现三大维度刷新行业纪录。
不过,多位创业者事后都复盘,觉得Sora在架构创新层面反倒有些落后。梅涛当时也感觉,Sora整体功能与预期相近。就在此后半年,随着智象未来等初创企业的入局,在当前的视频生成领域,OpenAI已不具备太大优势。特别是从产品落地角度来看,无论是海外还是国内的其他产品,其实都已经相差无几。
与此同时,在探索多模态架构范式上,智象未来甚至还走在了前列,公司最早研发了生成和理解双模型,而后则规划理解生成一体化,这被看作是通往物理世界的最佳路径。
智象未来也一直走在突破行业难题的路上。2025年,随着最新模型的开源以及vivago2.0等产品的发布,梅涛也告诉36氪,DiT(编辑注:Diffusion Transformer)架构利用Transformer的强大能力处理视频数据,让AI模型能高效建模时空关系并灵活生成不同分辨率的视频,这是一个重要的进步。然而,对整个生成式AI领域而言,复杂物理现象的逼真还原仍是悬而未决的难题——飞溅的水珠轨迹、物体碰撞的力学反馈等人类直觉可感的动态细节,仍处于“形似而神不似”的探索阶段,在相关场景中仍常出现视觉违和感。
智象未来通过Sparse DiT架构让模型在生成效果和运行速度之间找到了优异的平衡点。再通过对抗蒸馏技术在增加推理效率的同时,极大地增强了画面的细节和美感。这最终促成了智象未来旗下HiDream-I1模型的多个创造性成绩。
在算法上另辟蹊径,解决好最后一公里的问题
和大厂卷基模、搞参数的逻辑不同,小厂更讲究创新与落地,在梅涛看来,这也是智象未来的价值,解决好AI最后一公里的落地问题。
其曾对36氪表示,“从我们创业第一天起,我们就非常有危机感意识,就想着怎么样去找PMF。我们在商业化方面走得比较早,也比较快。虽然我们融的钱并不是最多的,但是花的每分钱、招的每个人、我们都是想明白的。”
在成立早期,智象未来就形成了“1+3+N”布局,即一个核心多模态大模型,驱动创作工具平台、互动营销内容工具和一站式视频创作Agent三大产品。截至目前,其服务已覆盖全球超2000万个人用户和超4万企业用户。
做好定位之后,核心是怎么做好交付,服务好客户,让AI真正产生价值。
梅涛告诉36氪,智象未来有国内最全的多模态版权语料、数十万小时版权视频素材以及上万个授权IP。不仅涵盖了国内70%影视数据,且已形成上亿条AIGC二创素材,目前在影视、文旅、营销等场景得到广泛应用。
“在微软研究院,我们就经常说,从一个技术到一个产品,可能需要一百个工程师;要把产品卖好,可能还需要一百个解决方案专家或BD,可见中间的Gap有多大。当时我就想,我一定要找个地方去把链条打通。”
也正是这份从技术到落地的全链条能力,让智象未来自诞生至今一直颇受资本看好。
2024年,智象未来完成数亿元A轮融资,由合肥产投集团领投,安徽省人工智能母基金等机构参与。2025年底,京东集团作为战略投资方对智象未来进行加码,其背后的物流、零售、健康、工业等庞大业务场景,恰恰是多模态AI技术绝佳的落地试验田和应用沃土。
随后,便有知情人士透露,智象未来紧锣密鼓地启动了B轮融资的筹备工作,并计划于2026年初完成交割。
36氪近期了解到,智象未来已顺利拿到下一轮TS,其中,老股东持续加持,新股东有产业资本、业务能深度合作的上市公司和知名投资机构,目前B轮融资金额已达到数亿元人民币。
上海敦鸿资产CEO袁国良在评价智象未来时如是表达,“我们坚定看好视频生成技术作为新一代生产力工具,将全面赋能千行百业。尤其在电商领域,视频已成为连接商品与消费者的核心媒介,而HiDream已通过产品初步验证了其在电商场景下的应用价值与商业化潜力,体现了团队不仅懂技术,更懂行业。同时,我们认为其技术架构与演进方向,具备向更具通用性与认知深度的世界模型拓展的可能性,这是一种底层能力的跃迁。我们期待与团队共同探索技术与产业融合的长期路径,助力推动多模态生成成为普适且智能的行业基础设施。”
兼具商业化实力与架构创新的最佳标的
2025年是中国多模态生成式AI的爆发元年。随着AIGC技术的日趋成熟,生产力与创造力显著提升,驱动应用市场呈爆发式增长态势。根据IDC数据,全球生成式AI市场规模未来五年复合增长率预计高达63.8%,到2028年将达2842亿美元,占AI总投资的35%。而智象未来凭借极强的技术实力与产业化落地思维成为其中的获益者。公司商业化进程迅速,36氪获悉,智象未来2025年的全年营收已过亿。
在竞争激烈的多模态生成领域能快速实现这样的成绩,得益于智象未来独特的商业模式思考与强势的底层创新能力,可以说,智象未来是行业里为数不多的,商业化与技术创新两手抓的企业。
在智象未来创立的三年时间里,经历了不同的商业模式。2023年的模式是MaaS,卖模型和API,类似于云计算的PaaS模式。2024年的模式是SaaS,主要卖工具,让用户在智象未来的平台上使用工具生产内容。
现如今,其已升级模式,正式转变为RaaS,即交付结果、以用户价值为导向的商业模式,包括工具、内容素材、限额视频制作/投放只收少量的基础费用,主要是赚取客户的GMV提升后的分佣。据梅涛表述,其认为这样的客户价值相对清晰,可以基本上实现零风险投入,增量收益共享。
随着创业渐入佳境,梅涛也表示,其已经找到了商业回报和能力提升的平衡点。一方面是不断加大水位,做好垂类基础模型的研究,而一个更强大、方法更先进的底层架构,必定能为模型能力打下更好的基础。除了闭门自研,智象未来也通过开源拥抱更广阔的生态,提升成功的可能性。另一方面,依旧是解决最后一公里问题,深入到用户的实际场景需求里,打通更多垂类数据,如教育、电商和文旅等行业,做精调,真正解决行业问题。
《智能涌现》还了解到,智象未来目前也在研发新一代具备多模态推理驱动和无限记忆的多模态生成架构,将在大幅提升模型推理能力的同时实现更高水平的多任务间横向scaling up。
现如今,随着技术、市场和政策层面的共振,行业侧也正在意识到,AI视频不再是极客的玩具,而是能直接产生现金流的生产力工具。去年以来,由AI生成的“猫狗运动会”“刀切玻璃水果”等爆款AIGC视频走红社交平台,也让越来越多创作者入局,是从头部玩家到C端普通用户的共同选择,最终加速了视频生成赛道的商业化进程。
据国际调研机构Fortune Business Insights数据,2024年,AI视频生成的全球规模约6.2亿美金,预计在2032年达到25.6亿美金,2025—2032年间的复合增速为20%。
现阶段,在营销与特定内容领域AIGC已经是主流选择,更可观的畅想是,随着模型能稳定解决角色一致性和长时序连贯性问题时,AIGC将在影视、游戏等高端应用引爆市场。而当模型突破理解生成一致性的问题,其便真正能认识物理世界,生成更真实可控的内容与细节,届时,才是视频生成赛道真正的爆发时刻。在这场竞速之中,智象未来已走在了前列。

