国内的AI大模型们路走偏了吧!

在差不多10个月前写的和等文章里提出过AI产品落地的的三段论：大模型、系统型超级应用、长尾工具。事隔10个月回头再看，AI发展的走势基本与此相同。其中大模型、长尾工具大家谈论比较多，这次还是专注于系统型超级应用。核心原因是从各种新闻来看国外在这里已经开始高歌猛进，像一个局点一样，但国内则相对安静，似乎被错过了。可这里才是AI应用的重镇。拿移动互联网作类比，安卓是重要也更基础，但其实可能没有微信重要。

什么是系统型超级应用呢？

系统型超级应用这类产品太复杂，实在不好理解，单纯类比操作系统也还是不行，所以这次换个路数，我们拿一个最近受众比较多的App 豆包以及背后的大模型来做类比，在产品形态、业务模式等各方面说明下这类产品。需要的话大家也可以一边操作一边形成直观感受。

豆包APP自身可以看成系统型超级用的面向C端的部分，但系统型超级应用不是豆包APP。

系统是指操作系统，超级应用是指功能没边界。

一边对各种硬件设备进行抽象靠驱动程序接入各种硬件。

一边对应用进行开放，在它之上可以开发Office，PS等各种应用。

两边是被隔离的，做应用的时候不需要关注硬件差异，可以无差别的使用硬件的功能或者计算机的计算能力。

系统型超级应用首先具备这种系统特征。

那什么是超级应用呢？微信如果没有小程序、支付等一系列子功能而是只局限于IM，单是人多那不能被称之为超级应用。超级应用一个特征固然是用户庞大，更关键的是通过二次开放应用商店，在功能上没有边界。

拿豆包这一簇产品做下类比，第一豆包大模型把各种算法完整进行封装，比如识别、语音合成、大模型等，提供了一种AI的通用计算和算法调度能力，这是通用能力部分。其次你会发现它现在至少在一边开放了技能商店（火山方舟/扣子）。APP的具体功能由技能来定义。

这个地儿不适合用“APP”这个词形容可自定义的功能，确实用技能更合适。就好比一个机器人它上一秒钟还不会开直升飞机，但装载新技能后下一秒就可以了。对机器人而言这是一种技能。

另一边如果参照操作系统其实是要投射到不同硬件上，这点豆包这一簇产品现在好像就覆盖了手机和电脑，但这种基于自然语言的应用对端上硬件的资源要求是非常低的，甚至可以放到只有1M内存的设备上。这靠开放平台来覆盖会更适合，下面会说。（其实这里还得区分特征是属于应用的运行时还是属于纯粹的云服务，小程序是微信的运行时技能，但有点复杂不展开了）

我们总结下这种系统型超级应用的构成，基本上是三位一体：

这里面容易被低估的可能是类似火山方舟这个位置的产品（CUDA大概是在这个位置），早期这个位置的产品绝对赔钱，很多时候还得靠降价来反哺它（看发布会豆包大模型把价格订到：0.0008元/千Tokens，这确实是敢下狠手，比我在用的便宜很多很多。干的就是上面说的事）。但其实这里是通路也是标准，培养粘性和链接的地方。看报道，火山方舟在持续升级从模型训练、推理、评测到精调的全方位服务，还有插件以及工具链。打点其实是对的。

基于这个可以预测下面OpenAI的行为，它大概率会补自己直接的C端应用（不是简单套壳）。从GPT-4o的发布来看，OpenAI内部似乎已经统一了认识：往应用方向整。这样磕下去，科技巨头里面估计会多一个，并且大概率会和Google直接碰撞，除非再有首席科学家起义。（有点像修仙，阻人成道了就一定会PK，和喜欢不喜欢没有关系）。

系统型超级应用的打法

我为什么看着好像还算了解这类产品呢？

因为我一度曾经带团队设计了完整的这种超级应用以及其打法，那产品和现在的豆包至少有60%的相似度......。（但实在干不动。别的都好说，这类产品太费钱了，再加上上代技术也没那么成熟，最终搞不动了）

这类系统型超级应用几乎必然是To B和To C两线同时着手。特别不单点极致，一般人可别整十死无生。

没有C端的标杆，没人相信你能干好，对于这种基于新技术的新品类也没人知道你在说啥。所以就需要一个豆包这样的C端应用做Pilot。看报道提到豆包APP月活2600万，豆包大模型日均处理1200亿Tokens文本，生成3000万张图片。这是很可怕的数字，智能音箱峰值的时候，每年出货也就只有近4000万台，活跃更是远逊（有的不足销量的10分之1）。（当年我们的C端产品叫:TA来了，说实话我觉得比豆包还好听一些，但数实在不行）

而为了把这种能力投射到更多的设备里面就必然需要构建开放平台，既输出能力也负责管理各种技能（应用运行时的技能平台和MaaS形式的输出，前者只在用户量级上来了才有意义）。

还要有一些共同依托的能力，否则没有根基。当年是一堆算法比如声学的（可复制性最差，现在好像还没解决），识别的，NLP的（过去可复制性也很差，现在基于大模型解决了），现在是豆包大模型这样的新一代模型。里面看起来各种算法都打包进去了。

很多人可能没注意的是包括大模型的这套算法核心计算其实在云上，端上要求的计算量极低，主要运行声学算法等。前面提到你甚至可能在一个只有1M内存的终端设备上把这种AI能力集成进去。也就是说这种能力可以下探到语音无屏的开关这类小设备。

这导致这种超级智能应用先天的优势就是多设备投射，进行沉浸式计算。这时候各种设备平权不是以手机为中心。

当前看起来豆包这些新一代超级应用还没去干这个事，确实也没到这个时点，其它所有硬件设备加起来创造的日活的和可能也不如APP的十分之一。

这种系统型超级应用要想干好，基础能力和杀手型的技能都不能缺。

基础能力搞不好有点浮沙筑高台，房子很难盖起来。（大模型还是很给力，一定程度上解决这问题）

技能搞不好有点像要盖大房子但梁不给力，过去智能音箱搞不好核心就这问题。

什么是基础能力呢？

这是领域本身定义的。比如如果是需要面向C端，TTS音色这个看着不重要的就和大模型的内容生成一样重要。GPT-4o在补这个，豆包大模型也在强化这个。

在APP里什么可以成为一个比较Killer的技能呢？

播音乐的这类功能的支撑度总是不够强壮，之前景鲲带着小度在家往教育做垂直应该就是尝试解决这个问题。

当年我们做过类似《Her》的尝试，很有趣的是豆包也选了它。

但新一代模型的效果实在好很多，从端点检测的精度到语音识别再到TTS（音色）再到内容生成。新一代技术比过去流畅太多了。

这里面有个叫《暧昧对象》的技能，真的差不多可以做陪聊天的服务了。（忘记是团队那个产品同学认为最能有用的就是陪聊天，比放音乐有用，这是对的，奈何当年算法不给力，做完连贯性不过关）

这一组算法最终的效果是个乘法问题，每个都0.8最终一乘体验就变0.5分。现在的识别精度，音色的流畅度和大模型的通用内容生成乘在一起应该还能剩下90分以上。如果不是你知道它是人工智能的情境下，已经很难分得清这是人还是AI。

上一波人工智能创业里面，NLP公司心心念念的《Her》真的有人要做出来了，还附赠了和之前尝试但不好使的声音复刻功能（《黑镜》那种男朋友没了，现在看连声音至少能做出一个70分的陪你聊天的他了...）。这比匹配意图偶尔还得扣槽这种土鳖方式的开放式聊天实在是好太多了。

做过这个的可以试试，体验下国内最新进展。

上面我们拿豆包APP以及背后的豆包大模型做例子分解了一下系统型超级应用的特征以及前者商业模式。

但系统型超级应用可不只局限于豆包以及背后大模型所代表的B端、C端，而是有着更宽广深远的空间，更关键的其实是行业。最先能收支平衡的有可能也是行业。

字节跳动这种公司走OpenAI的路没啥问题，但看起来好像所有做大模型的都跑这条路上来了。这就是标题说的国内AI大模型路可能走偏了。类似OpenAI这个地儿恐怕也没那么大容量。从上面分解中也能看出这模式夸张的难度和资源需求。

系统型超级应用可复制到更宽的领域么

有两个新闻可以放在一起看：一个是DeepMind发布AlphaFold3，号称为疾病治疗和药物研发开辟全新路径；一个是Xaira公司融了10亿美金。

这是什么呢？这是垂域大模型。（其实我不知道他们细节，也许没想的那么大，但不关键）

显然的Deepmind并没有因为OpenAI乱了阵脚，继续在自己的路上死磕。但很可能收支平衡比OpenAI还快。

因为它真的影响行业，重塑价值创造的过程。很多科学家会因为AlphaFold的调用次数和开放程度而造反，这反衬的正是影响力。那个国内的AI大模型有这种行业影响力。

每一个这种垂域模型不太可能是一个单独的裸的模型，在落地的时候总是要和现实的信息进行连接。

这点上我之前拿Watson举过例子。

虽然沃森不成功，但这种简单架构上已经清楚的表明这是行业的系统型超级应用。

Watson固然是不成功，但真做出来呢？

那是真的会解决医疗行业的根本问题的，比如医疗资源不足的问题。

这才是新质生产力。

想象一下，这些模型一旦达到AlphaGo在围棋里面的程度，那整个行业就要围着这个模型转了。对应行业会发生剧烈重整。

为什么提这个呢？

因为AI行业国内真干大模型的同学的选择好像都挤一块去了。

受OpenAI刺激，很多团队都跑去干类似chatGPT的大模型，然后自己从头搞又特别费劲，所以往往会借助开源。在这个基础上（相对通用的类似chatGPT模型）上包装出行业大模型。好处是瞬间可以出好多，坏处是不解决行业深层次问题，最终很可能变成上波的赚方案的钱，然后收支失衡。（参见：）

真正的垂域大模型，那怕把法律搞清楚也是有用的（康达的李思川李律，视频号：川哥说法，就和我聊过好几次）。但门槛确实还是太高，直接拿通用大模型上能靠谱么，我不咋看好。可现在看真做垂直的的反倒是不多。

垂域大模型和AGI

以前也写过一点这个话题:，现在仍然维持原来的观点：在专门的领域尤其是价值比较高，有很多专业信息和知识的领域chatGPT这种代表AGI的模型是很难PK掉垂域模型的。

我是靠常识做这个判断，很不权威。

常识是说一部分数据内蕴了各种知识和规则，把这些数据的种类覆盖的越全，这个模型的相应的事能力也就越强大。通用大模型能力再强，没有这部分信息，也会瓮中之脑一样空有智商。何况模型训练过程中总是可以产生很多的Know-How，这会进一步增加差距。

在很长一段时间里可能会是一个通用大模型，上面承载几个类似豆包/火山方舟/豆包大模型这样的超级应用（比如搜索方向也可能出新的超级应用）还有一些垂域大模型共同为不同的系统型超级应用提供引擎。

小结

chatGPT属于开局的点，我们把它刨除在外。那AI大模型真正的局点其实是这些系统型超级应用，不是小团队做的辅助工具。那谁在做这东西呢？也可能是我真的不知道，但如果确实没有行业性的，而是都围在了通用模型上，那可能会在AI的局点上缺席了不少东西。那不管对于VC还是真的从业者其实遗憾的事情。（当年傅朱争论过一场，从这个角度看实在是都偏了）

最后是俩消息：

21号再播一场，感兴趣的来，没那么激进，会讲讲容易掉进去的坑：
新起个群，这个群不闲聊。未来会不定期做个收费线上活动（99/次），叫琢磨事AI碰撞局。每次大概2个小时，大概一半时间讲1主题，主题是关于AI应用落地相关，一半时间是切磋问题，深入一些的探讨。可以匿名，不做强连接。适合干AI碰到了问题，想听听其它人建议或者别人怎么干的同学。不适合学编程或者想迅速发财的同学，没有成功学。

国内的AI大模型们路走偏了吧!

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

国产机器人也会空翻了！打破限制，世界首款！

这个AI工具，让美国年轻人疯狂上瘾！Character AI每秒被查询2万次，占谷歌搜索20%

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

，打开AI+融合创新人才培养新局面

新一代注意力机制Lightning Attention-2：无限序列长度

纯太阳能电车何时能实现，马斯克怎么看？

AI狂飙，谁是中国独角兽背后的「超级买家」？

大疆前高管带6人创业，做出了类目Top1的割草机器人

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

OpenAI停用，砸了谁的饭碗？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

OpenAI突然断供开发者，国产大模型无痛搬家服务立即上线

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

被AI量产的短视频营销号气疯了，于是，我也做了一个

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

AI时代，谁还没用AI智能硬件提升工作效率？

世界大战后人类灭亡，智能机器人依然执行猎杀任务，为主人复仇

陆地神盾亮相中缅边境，5000发射速横扫一切，步兵的反无人机天幕

忠诚的机器人认真灭鼠，却遭主人背刺，从中你悟到了什么！

国内的AI大模型们路走偏了吧!

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

国产机器人也会空翻了！打破限制，世界首款！

这个AI工具，让美国年轻人疯狂上瘾！Character AI每秒被查询2万次，占谷歌搜索20%

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

，打开AI+融合创新人才培养新局面

​新一代注意力机制Lightning Attention-2：无限序列长度

纯太阳能电车何时能实现，马斯克怎么看？

AI狂飙，谁是中国独角兽背后的「超级买家」？

大疆前高管带6人创业，做出了类目Top1的割草机器人

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

OpenAI停用，砸了谁的饭碗？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

OpenAI突然断供开发者，国产大模型无痛搬家服务立即上线

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

被AI量产的短视频营销号气疯了，于是，我也做了一个

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

AI时代，谁还没用AI智能硬件提升工作效率？

世界大战后人类灭亡，智能机器人依然执行猎杀任务，为主人复仇

陆地神盾亮相中缅边境，5000发射速横扫一切，步兵的反无人机天幕

忠诚的机器人认真灭鼠，却遭主人背刺，从中你悟到了什么！

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

新一代注意力机制Lightning Attention-2：无限序列长度

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看