撰文丨潘几鹤
要不要做大热的Sora?李彦宏say“no”。
年初OpenAI亮出Sora后,惊艳四座,国产Sora接连推出,作为AI头号玩家的百度,却绕道而行。
“Sora这种,无论多火,百度都不去做。”谈及此,李彦宏态度明确。
不久前,他进一步解释,百度不做Sora,不等于不做多模态。
其实,深耕多模态,Sora并非唯一路径。
百度选择走另一条路,在真正有业务场景的地方,推动技术能力先跑起来,比如,结合了多模态交互能力的数字人领域。
百度世界大会上,李彦宏新发布的检索增强的文生图技术“iRAG”,用于解决生成式AI中的幻觉问题,同样走的是多模态实用至上路线,努力推动产业应用真正走向规模化。
路径分野背后,关乎李彦宏及百度的战略取舍,以及技术向实的根本命题。
难以企及
仅根据提示词,就能生成长达60秒的视频,Sora的颠覆性创新及其流畅惊艳的画面表现力,有重塑产业的意义。
现阶段,它宏大美丽的图景里,隐隐透出两个关键词,昂贵、遥远。
贵,很好理解。Sora对算力和数据的需求,既要求海量,还得高质量。
算力维度,据研究机构Factorial Funds报告估算,仅训练模型,Sora至少需要在4200-10500块英伟达H100 GPU上训练1个月。
等到正式推出,Sora峰值算力需要约72万块H100 GPU,按每片3万美元计算,对应的成本就是216亿美元,烧钱力度惊人。
这种持续、高强度的资源消耗,令“视频ChatGPT时代”看似近,实则遥远。
从进展来看,年初,OpenAI CTO曾预计,2024年内Sora会正式向公众推出,可离今年结束仅剩1个半月,Sora仍处于“期货”状态,项目牵头人离职。
下场做AI视频的厂商变多,赛道竞争激烈,部分产品存在同质化、稳定性不足等问题,近期流量下降。
需要指出的是,底层技术上,Sora的精髓,在于融合了Transformer和Diffusion两个基础架构。
但早在2022年,这一方向就被提出,去年,已有国际团队探索落地。
Open AI做Sora,更多是路径创新,再次展现了“大力出奇迹”。
正如Sora推出之时,Open AI所描述的那样,称扩展视频生成模型是“构建物理世界通用模拟器的一条有前途的路径”。
光芒与争议交织,圈内不乏泼凉水者。
比如图灵奖获得者、Meta首席科学家杨立昆,就直言不讳地指出,通过生成像素来对世界建模是一种浪费,注定会失败。
根据文字提示生成逼真视频,并不代表模型理解物理世界,生成视频的过程,与基于世界模型的因果预测,完全不同。
“硅谷的炒作,总是告诉你AGI(通用人工智能)即将到来。我们实际上并没有那么接近。”杨立昆说。
技术向实
一个共识是,单凭语言模型,无法实现AGI。只有将视觉、听觉等一系列模态的认知能力融合起来,模拟人类的感知和理解,通往AGI才有了起点。
这里头的门道太多了。Sora的出现,推动多模态应用加速,但它远不能代表多模态的全部。
当众人追问“百度究竟何时下场做Sora”,李彦宏早在今年初,整个中文互联网都在为Sora捶胸顿足之时,便另有打算。
他决定带领百度,去解决图像生成的幻觉问题。
今年百度世界大会上,文生图技术iRAG,成为重头戏之一。
这项技术将百度搜索的亿级资源,跟强大的基础模型能力结合起来,能让生成的更真实、准确。
看起来,这条路没有Sora这样的新故事“性感”,为何是李彦宏眼里比Sora更紧迫的事?
“今天,文字层面的RAG(检索增强)技术,做得很好了,但图像等多模态内容和RAG的结合还不够。”
李彦宏说。之前,完全基于大语言模型的文生图系统,生成的常常是“一眼假”,逻辑不合常理,产业端很难用起来。
试想下,若基于大众汽车的描述生成的车型,长得却像丰田,AI赋能业务场景,也就只是一句空谈。
幻觉问题,制约AI大规模落地,多模态要想进入实用阶段,必须做到准确、可控。
百度想帮产业,扫清眼前的技术障碍。
新推出的iRAG技术,能大大增强生成可控性,其价值可总结为四点:无幻觉、超真实、没成本、立等可取。
大模型去掉了机器味,AI终于走向智能而非智障了。由此,许多行业的应用空间打开。
比如,看重市场推广的汽车行业,过去5000块才能做成的事,现在用AI,零成本搞定,并且能保证生成效果。
此外,在影视、漫画,连续画本、海报制作等创作场景,iRAG都能发挥极大价值。
iRAG作为多模态的分支,投入iRAG本身也能看到百度的多模态底层思路:离业务场景更近一点。
事实上,百度早就看好多模态发展方向,对该领域的加码既早且深。在许多领域,百度的多模态大模型能力是领先的。
相比业界,除了iRAG能够做到图片生成更加精准,解决可控性问题。
早在2019年,公司就推出了国内首个“数字人”,在这一领域持续精进,升级各项能力。
目前,百度营销擎舵2.0生成的数字人,已能实现一比一还原真人,唇形拟合匹配度高、语音克隆自然,定制效果和交付效率提速。
像数字人这样,产业侧有需求、技术上能精准实现的场景,若专门开发个通用视频生成模型,耗时耗力。
换个思路,在效果差异不大的情况下,用更简单、成本更低的技术办法,让应用先跑起来,可能是更优解。
除此之外,作为多模态大模型最大的落地场景之一,自动驾驶是大模型重构物理世界的一个典型应用。
2024年7月,百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model(ADFM),这也是萝卜快跑的核心技术。
ADFM包括感知大模型和规划大模型,两者通过联合训练,从原始数据捕捉到油门和转向输出,形成端到端的自动驾驶系统。
Apollo ADFM感知大模型已经实现包括检测、跟踪、理解、建图这几项基本能力。
其中感知大模型中的基础模型通过点云和视觉多模态融合的方式,实现了相机和主动光不同类型传感器的优势互补,兼顾深度、准确性和信息丰富程度。
这款大模型结合硬件产品与安全架构,通过多重安全冗余与管理策略,确保了车辆的稳定与可靠。
Apollo ADFM的引入,标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度,其性能超越了人类驾驶员十倍以上,成功覆盖城市级全域复杂场景。
应用驱动
站在更高维度来看,Sora的“舍”,iRAG技术的“取”,是集中资源办大事,回归实用性本源。
做AI超过10年时间,百度笃信AI,投入很大,从芯片到框架、到模型、到应用都有,既要规划好每一步,也得紧贴行业发展脚步。
千头万绪里,什么是李彦宏眼里的第一性原理?
世界大会会后,他给了四个字:应用驱动。
无论技术还是业务,百度的优先级,都是从应用开始,从上往下看。
其先结合用户需求看应用,再推导应用需要什么模型,模型需要怎样的框架,框架需要什么样的芯片,一步步走下来。
iRAG技术的诞生,正源于此。
应用需要AI生出来的图保持原状,公司logo不能错,产品细节不能失真,需要准确的多模态能力。
敏锐察觉到这一痛点,百度花了大量时间,钻进去研究,解决了生成的幻觉问题,打通了制约多模态进入实用阶段的堵点。
重视多模态,却不做Sora的理由,也在于此。
大公司财力和“才”力有限,比起砸钱进入某个商业价值尚未形成的大热门,其更愿意选择分给产业端翘首以待、急得跳脚的紧要事项上。
“大家遇到最多的问题,就是我们优先解决的问题。”李彦宏说。
11年投入AI超1700亿元,百度比外界想得要更务实,而务实也是AI行业下一个阶段的重要筹码。
靠贩卖预期的周期已经走到尾声,什么才是AI真正的价值,成为下个周期的重要命题。
今年,百度一年一度的世界大会,主题定为“应用来了”。这也能看出,其对大模型和生成式AI当下的认知和判断。
正如李彦宏反复强调的,要重视“超级能干”的应用,帮助更多人和企业,打造数百万“超级有用”的应用。
以“用”为锚点,不为做技术而做技术、不为做工具而工具,让业务真正服务于价值创造,何尝不是另一种理想主义。
从蒸汽机到AI,新技术的影响,总是短期被高估,长期被低估。AI长跑者百度,乐观地静候风变,务实地调整风帆。
正如李彦宏所说,人工智能是一次新的工业革命,它不是三五年就结束,不是一两年就出现“超级应用”的过程,更像是三五十年对整个社会彻底地重构。
唯有脚踏实地,基础模型能力先就绪,才有AI应用的群星闪耀时刻。
“在这个过程当中,我们既需要耐心,又需要大的投入,同时不断地传播火种。”李彦宏表示。