2024年转眼已经过了一半,从Sora模型引起开年轰动至今,生成式AI领域生出许多新变数。
一些预言陆续被现实验证:国内AI视频生成模型进展飞速,手机和PC大厂掀起AI狂欢,AI新硬件昙花一现,智算建设大潮将英伟达送入3万亿美元市值俱乐部,热钱持续涌向AI创企……
一些国内限定的现象级事件出现:AI卖课先赚到第一桶金,上下文长度卷向1000万汉字,大模型价格战疯狂开打,AI黏土特效风靡社交网络,AI Infra创企们忙着把大模型成本打下来……
烧钱与赚钱、动力与陷阱、技术突破与应用变革……围绕这些AI发展必经的权衡选择,中国在AI领域最早投资且布局最丰富的投资机构攒了个局,把十多家中国通用大模型、多模态大模型、AI Infra、具身智能、生成式AI应用的活跃创业者们聚集在一起,集中输出他们的思考与洞见。
一切都在被AI改造,没有什么能阻挡Scaling Law的步伐,但对AGI的长期信仰尚不足以掩盖眼前现实的商业化困境,业界还在等待一个真正属于大模型时代的超级应用的诞生。
以下是信息干货:
一、生成式AI应用落地需解决三大问题,多模态应用创企比例上升
启明创投从2013年开始系统性布局AI领域,至今已超过50个项目上投资超过60亿元人民币或等值美元,其中近20家在二级市场上市或成长为独角兽企业。在其投资企业中,有10家中国大语言模型、多模态模型或具身智能模型研发领域的领军企业,数量居全国之首。
在启明创投主管合伙人周志峰看来,生成式AI应用落地仍需解决三个问题:
1、降低模型使用成本。未来一两年,生成式AI仍有巨大的成本下降空间,下降到1/1000是大概率事件。成本越低,AI技术落地才会更容易。
2、提升大模型的效果。大模型幻觉问题不可避免,另外两个效果问题也很重要:一个是用户向某个语言模型或产品提出误导性问题后,模型应该怎么回答;二是大模型应用在具体场景下生成的回答或内容,对这个场景来说是否准确和合适。
3、增强用户留存率。第一波生成式AI应用的留存率相对较低,跟互联网头部应用没法比。怎样让大家真正把生成式AI产品变成生活或工作的一部分,无论是Save Time还是Kill Time,是接下来发展的重要问题。
据启明创投统计分析,生成式AI正在三个“C领域”——Copilot(生产力工具)、Creativity(创意)、Companionship(陪伴)获得了大量用户的青睐,正在经历从提高效率(Save Time)类应用向获得愉悦(Kill Time)类应用的转变。这与当年互联网应用的发展轨迹类似。
去年启明创投对当前发展阶段生成式AI产业脉络的梳理,这个三层架构至今也没有太大的变化。今天依然可以顺着这样的脉络继续投资。
根据启明创投去年对两百多家中国生成式AI企业的深度交流后进行的统计,当时企业以生产力工具为主,46%的企业都做Save Time类应用。
这也比较符合技术发展趋势,当技术不够成熟时,先会诞生出一些开发工具,提供给比较专业的用户使用。其他领域包括Chatbot、智能助手、娱乐应用等,占比都不是很大。在基础架构方面,去年创企主要是研发基础模型的企业和一些做大模型分布式训练平台的企业。
到今年上半年,根据启明创投对深度交流过的400余家AI创业企业的统计,多模态应用的比例呈上升趋势,出现许多基于AI大模型技术的新应用类别,同时更多创企深耕某个垂直行业和场景,而基础设施层的技术创业方向也更加多元化。
二、2024生成式AI十大展望:多智能体技术飞跃,视频生成将全面爆发
2024年,周志峰认为生成式AI的技术底座还在高速动态发展中,视觉语言模型、MoE、Agent、RAG等技术方向都在快速发展。启明创投如今提出新的2024年生成式AI十个展望:
1、当前生成式AI的两大核心技术GPT和扩散模型将逐步融合,激发全新模型能力;
2、高质量数据的获取和组织将显著影响新一代模型,合成数据在预训练中的占比将大幅提升;
3、多智能体(Multi-Agent)技术将飞跃,通过优化协作和分工显著提升生成式AI效率和效果;
4、将出现图像和文本的统一连续表示,并且基于此的图文联合扩散模型将达到GPT-4o级别能力;
5、图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升5倍以上;
6、3年内视频生成将全面爆发,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革;
7、我们将见证压缩更多模态信息的超级多模态大模型,如文本、图像、语音、音乐、3D、传感器数据(控制信号、眼动信号、手势信息、雷达信号等);
8、生成式AI打通了人类语言与机器语言的转换通道,命令机器完成复杂任务的成本将显著降低,带来巨大的生产力变革;
9、端侧推理会有巨大增长,来自三个因素的叠加:推理优化算法+端侧推理芯片+端侧大模型;
10、AI将在多个数字化水平较高的行业中占据主导地位,并将重塑绝大部分企业软件。
三、热钱投向生成式AI应用
从创业和投资角度来看,AI领域机会很大。据摩根士丹利的数据及启明创投科技团队的分析和评估,仅是2023年,全球一级市场在AI领域的投资金额达到了224亿美元,超过了过去十年加起来的总和。
224亿美元中,超过2/3的钱投向从事基础设施或模型研发的企业,约20%投向生成式AI应用企业。周志峰预测今年及未来两三年,两者的比例会显著转变,越来越多的资金将投给应用企业。
去年世界人工智能大会上提起生成式AI的典型应用主要有三个:ChatGPT、Character.ai、和Midjourney。而今年,AI应用已经品类众多。
启明创投在AI领域的投资策略已经发生演变,从将AI视为一个技术或一个垂直领域去进行投资,转变为将其视为基础能力、去寻找其在千行百业落地的巨大潜力,今年起重点关注7类生成式AI应用:垂直行业AI(Vertical AI),企业AI (Enterprise AI), AI交互平台,AI内容平台,AI工具,AI游戏,AI硬件。
“从投资数量上来讲,未来我们投资的企业80%都会是生成式AI的应用公司。”周志峰说。
他认为生成式AI仍处在其发展周期的早期阶段,相较于互联网浪潮中应用的落地时间点,当前AI浪潮中应用的爆发预计将会显著提前。
与互联网时代不同,AI的应用不需要等待5~8年才会迎来大规模爆发。这是因为过去几十年,互联网、移动互联网、大数据、云计算等技术的飞速发展已经为整个生态系统奠定了坚实基础。因此AI应用将会与底层技术同步发展,我们目前既处于互联网90年代那样的基础设施建设阶段,同时也接近于2000年左右的应用发展水平。
生成式AI应用企业从0到1的成长时间比其他领域更长,需要同时克服TPF(技术-产品契合度)和PMF(产品-市场契合度)两大挑战。
所以,创始团队需要更大的耐心和决心,理解技术(技术的边际)、理解产品(原生AI产品的新特点和新分发机制)、理解世界(全球化发展的机会)。
周志峰将生成式AI创业者归纳为三类典型画像:一是AI科学家,来自研究机构或科技大厂的AI研发部门;二是产业专家,对某个行业特别了解,或是产品、运营等的高手;三是新锐创业者,有越来越多的95后甚至00后的创业者。
在技术还未成熟时找到合适的产品形态。三类创始人都有各自明显的优点和缺点。目前来看AI科学家创始人占比约1/3,这说明技术浪潮还处于发展早期阶段,这类人群对技术底座的边界掌握地更精准,对技术发展的感知也更敏捷。周志峰认为在未来两三年,第二类、第三类创始人的占比会持续显著上升,并成为主流。
四、AI原生应用落地遇难点,AGI发展需要多种方法融合
多家AI创企在本月发布新品。无问芯穹发布了全球首个支持单任务千卡规模异构芯片混合训练平台;阶跃星辰发布了三款Step系列通用大模型新品,全面升级通用大模型底座能力;无限光年发布了光语大模型,灰盒可信,百亿参数模型优于超大规模模型GPT-4 Turbo。
大模型的训练和推理都需要强大的算力资源支撑。在无问芯穹联合创始人、CEO夏立雪看来,AI Native应用落地面临4个关键Infra问题:1)激活“沉睡芯片”并促进异构算力整合;2)提升多种计算卡大模型计算性能;3)为大规模训练集群稳定训/推夯实基座;4)更为高效地利用有限的端侧计算资源。
阶跃星辰创始人、CEO姜大昕认为,探索AGI路径,“Scaling Law”和“多模态”相辅相成、缺一不可,两个方向齐头并进,最终到达AGI。他相信Scaling Law依然奏效,模型性能仍在随着参数量、数据量和计算量的增加呈幂次方增长。
他相信多模态是构建世界模型的基础能力,也是通向AGI的必经之路,从算法角度可以分为三个阶段:第一个阶段是模拟世界;第二个阶段是探索世界,将大模型与具身智能结合;最终阶段是大模型要归纳和总结物理世界的规律,发现人类尚未发现的规律。这三个阶段不是依次展开,而是可以并行发展,但进化速度可能不同。
复旦大学浩清特聘教授、上海科学智能研究院院长、无限光年创始人漆远认为Scaling Law并不会直接引领达到AGI,AGI的目标是发现复杂世界的未知规律,而当前大模型都高度依赖数据,而未知规律可能缺乏海量数据支撑。
据他分析,目前大模型主要是联结学派的“黑盒”概率预测,如果将符号计算与大模型相结合,就能同时具备慢思考的“白盒”逻辑能力,两种方法的融合是AGI发展的重要方向,实现“灰盒”可信。深度学习能实现数据拟合,且可以延展至数据没有的地方,当知识规则和关键数据矛盾时,能够调整知识规则,摆脱数据依赖。“灰盒”可以通过符号计算与神经网络的结合,应对大模型的幻觉问题和垂直领域的专业问题。
五、AI超级应用何时出现?面临哪些挑战?
对于AI超级应用何时出现,周志峰分享了他很喜欢的一个西方乐队的一句经典歌词:“我们只需要一点点耐心。”
“超级应用的来临,不会是贝多芬的《命运交响曲》,一上来就是强烈的节奏,一种命运在敲门的感觉。应用的孕育是渐进式的,更像是《梁祝》,先是隐隐约约的鼓声,慢慢一支长笛渐强地引入,再到后面的小提琴主题段落。”他谈道,“我们今天已经能够听到AI应用隐隐约约的鼓点从远方传来,让我们大家都保持一点耐心,共同期待那些卓越的应用的诞生。”
1、未来生成式AI产业有望诞生哪些超级应用?
智谱AI COO张帆认为,大模型的核心在于提升人机交互的带宽,每次交互带宽的提升都会重构用户需求和应用方式。企业和开发者能通过MaaS平台降低使用和训练模型的成本,更容易地探索和构建超级应用。
在他看来,未来几年内可能出现颠覆性的超级应用,但这些应用往往难以预先设计,而是通过不断迭代逐步出现。AI时代将涌现出许多难以想象的应用。这一过程需要算力、网络、硬件水平和用户习惯的提升,以及遵循从小规模应用开始逐步发展的原则。
米粿AI的目标是成为AI漫画和动漫平台的领军者,致力于结合AI技术与内容生产。米粿AI创始人、CEO丁黎预测未来几年内,绘图、漫画和2D动画等领域将会出现颠覆性的超级应用。
悉之智能专注于AI教育,悉之智能创始人、CEO孙一乔预测,未来超级应用应从需求出发,垂直解决问题,教育是很有潜力的领域,教育领域频次高、需求刚性,易出现AI超级应用。
无限光年COO朱剑雄认为,未来几年内,超级应用将在多个领域涌现。从PC互联网时代到移动互联网时代,流量入口的转变提供了参考,大模型时代也会出现类似的趋势,场景服务能力深厚的公司可能会成长为超级应用。
2、生成式AI超级应用需克服哪些挑战?
谈及挑战,丁黎认为与行业从业者形成友好生态系统非常重要。当前AI创业需要高资本和高技术门槛,团队需团结合作,共同应对挑战,才能在激烈的市场竞争中脱颖而出。
朱剑雄提到产品经理的角色和要求发生了变化。现在的产品经理不仅要定义场景和需求,还需将这些信息传递给大模型,进行评测和验证。既懂模型又懂客户的产品经理目前市场上较为稀缺,但随着时间推移,这一问题将逐渐得到改善。
衔远科技首席算法科学家丁宁则分享了两个惯性陷阱:资源惯性和技术惯性。他还提到数据缺失问题,特别是负信号比例高的场景缺乏高质量数据,是未来的一个关键挑战。
六、探路具身智能:途径、难点与终局
具身智能也是产学界共同关注的热点,关于技术路径、落地方向、通用机器人的终极形态等问题,有很多不同的声音。
清华大学助理教授、星动纪元创始人陈建宇相信人形机器人会是通用机器人的终极形态,不仅因为双足与双手的纯人形形态与现有环境的兼容性更好,在训练数据获取上也更容易从人类世界中进行迁移,未来机器人有望在各类任务上都做到极致性能。
在技术范式上,端到端大脑小脑融合方案会是未来很重要的研究方向,仅仅用人类语言作为大小脑之间的传输界面效果有限,可以借鉴目前自动驾驶中的端到端联合训练,物理层面数据直接反馈给图文大模型将更好提升整体模型效果。
陈建宇提出在不久的将来,也许可以设计一种机器人的图灵测试,有一个机器人和人来进行交互,背后可能是智能的自主控制也可能是人类遥操作,当技术发展到很难分辨机器人的背后是人工智能还是人类遥操作时,可能便是机器人真正实现智能与通用的那一天。
上海交通大学教授、穹彻智能联合创始人卢策吾是世界范围内第一位由机器人来给自己刮胡子的人类。他认为具身智能的终局需要综合考虑技术的迭代和商业的需求,具身智能作为承载硬件的软件算法欢迎各种类型的机器人形态。
对于具体的技术路径,具身智能算法需要两个核心要素,分别是能够感知和理解世界的世界模型,以及具有强鲁棒性的技能操作模型。
在操作模型中,力反馈机制十分重要,不仅是在图像维度之外增加了一个交互维度,同时也可以减少对世界模型毫秒级别决策的依赖。穹彻智能展示的削黄瓜、叠衣服等技能都说明了操作模型具有鲁棒性后可以大大拓展潜在的应用空间。
银河通用前段时间发布了首代具有泛化性的具身大模型机器人。北京大学助理教授、北大-银河通用联合实验室主任王鹤认为,人形机器人是未来整个通用机器人市场的最大公约数,但在迈向这个终极目标的过程中,需要每一步都有健康的商业模式让机器人真正进入场景,上半身拟人下半身底盘会是三年内最可能落地的实际方案。
从技术角度,银河通用非常关注小脑层面的技能控制模型如何实现足够的泛化和通用。针对小脑技能,银河通用自研合成了千万级的场景数据及十亿级的抓取数据,在合成数据的训练下,银河通用机器人已实现抓取随机放置的透明、高光等物体的成功率在95%以上。
具身智能机器人何时才能真正进入严肃场景,进行商业化量产落地?需要克服哪些挑战?
王鹤谈到能落地的机器人需要足够低的成本和足够高的耐用性,这些都是需要技术公司不断打磨硬件和供应链能力,而国内创企具有天然优势。
卢策吾补充说,还要快速POC,只有开箱即用才能快速规模化,对于成本硬件的驾驭能力和灵活组装能力是降低成本的关键,“大脑”要足够通用,落地的成本才够低。
陈建宇对国内发展具身智能的前景保持乐观,认为每个创业公司都应该思考如何利用中国市场的优势,最大化撬动国内供应链的优势,打造具有全球化竞争力的硬件产品。
结语:AI计算新浪潮,看中国
在周志峰看来,将边际成本降至接近零的维度,恰好是评判一项技术能否成为最大的科技浪潮的关键标准,微处理器、互联网、人工智能是过去五十年科技发展史上最大的三个浪潮。
微处理器将计算的边际成本降到非常低,互联网把分发成本降为零,生成式AI的核心是把数字化内容创作的边际成本几乎降为零,由此看来AI技术一定会释放巨大的价值。
AI是第三次计算革命,而中国是最佳的孵化地。中国的显著优势是拥有庞大市场,而每次出现重大的科技变革和范式转移时,中国都是孕育新一代伟大企业的最好温床。
根据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》,2022年中国在AI领域的专利数占全球的61.1%,大幅超过美国的20.9%。
美国保尔森基金会Marco Polo智库的全球AI人才报告显示,中国在全球顶尖AI学者的占比从2019年的29%上升到2022年的47%,是人才最丰富的区域。
中国在应用方面也经验丰富,在移动互联网时代成功打造了众多被广泛使用的明星应用,为中国引领新一波AI原生应用的浪潮奠定了坚实的基础。
根据启明创投科技投资团队的统计,2010年以后成立且至今月活跃用户数超过5000万的应用,被其定义为“超级应用”,中国团队或企业一共打造了30余个。对比而言,美国团队或企业一共打造了7个。
“在互联网和移动互联网时代中国已经孕育出了众多科技巨头,在生成式AI时代中这一现象必将重现。我相信中国新一代的伟大的科技公司已经在形成中。”周志峰说。