文 | 硅谷101

自动驾驶行业备受关注的前图森联合创始人侯晓迪,在《硅谷101》的访谈中,透露了他的最新动向,他已经开始了新一次的创业,依旧是自动驾驶卡车,新公司的名字叫做 Bot.Auto。

在《硅谷101》的访谈中,侯晓迪承认自动驾驶行业进入了低潮期,但这种低潮是由加息带来的纯资本问题,并预估在2026-2027年他的公司可以在特定场景下赚钱。

打开网易新闻 查看更多图片

侯晓迪之前所在的图森也是命途多舛:

作为全球自动驾驶第一股,图森未来2021年4月在纳斯达克上市,发行价是40美元,很快股价翻番,冲上70美元。但是图森未来的高光没有持续多久,就遇到了很多中资背景的企业在美国遇到的一系列你能想象的困难: 第一波的困难是在做空机构与2022年美国加息的双重背景下股价腰斩; 接下来又被美国的监管机构盯上,美国海外投资委员会CIFUS对图森进行了持续的调查与监管; 最后图森经历了四轮管理权的更迭。

2022年3月,吕程离开公司, 2022 年6月,陈默离开董事会。侯晓迪作为仅剩的创始团队与早期管理团队的代表留在了公司和董事会上,接下来就是图森美国的董事会强行通过投票把侯晓迪也给罢免了,使用的条款叫做 Terminate without cause(无理由终止合约)。至此,图森未来可以说他们的创始团队以及早期管理团队全部出局。这是第二次权利的反转。

第三次是10 天之后,图森的创始团队与管理团队侯晓迪、陈默、吕程三人用超级投票权重新夺回了公司,又换掉了之前的董事。但是代价就是,图森重新回到陈默与吕程手中,侯晓迪被边缘化,于次年辞去董事职位,彻底离开图森。

所有的这些事情都发生在图森上市以后的两年内。经过美国监管机构的调查与管理权的轮番更替后,图森未来的股价当时已经跌破了上市发行价的 90%。在2024年1月份,图森发布公告说,公司正决定从纳斯达克摘牌退市,并且会注销普通股。这个时候图森的股价只剩下 0.25 美元,距离上市时候的40美元可以说是只剩下了一个零头。

在大国科技交锋的⻛口浪尖上,图森未来的故事比tiktok更加跌宕起伏,也更加艰难。无论是自动驾驶还是大模型的更新热点不断。侯晓迪在访谈中也详细解释了为什么他实名反对马斯克,以及他对大模型、世界模型、具身智能等诸多热点话题的看法。以下是《硅谷101》与侯晓迪的对话。

你将会看到:

⭕️什么再次创业还是无人驾驶?

⭕️行业过冬?商业逻辑不变,快赚钱了

⭕️为了生存,无人驾驶公司能做的“副业”

⭕️自动驾驶级别的科普、不同级别商业模式不同:今天谈的是L4

⭕️马斯克宣布8月推Robotaxi:他也许没有赢,但我们已经占下风了

⭕️特斯拉的本质上是L2辅助驾驶,L4无人驾驶最关键的问题是安全性

⭕️自动驾驶现在的错误观念

⭕️棘手的运营问题:无人驾驶出车祸,责任在谁?

⭕️高速比拥堵的城市更容易实现无人驾驶:不必面临太多权责不清的交通场景

⭕️为什么选择做卡车的无人驾驶?

⭕️具备迁移能力的大模型,爆火出圈只是小创新累积的必然成果

⭕️大模型对自动驾驶行业的启发:低成本、高效率的冷启动

⭕️从小在互联网被骂,创业对自己的意义

⭕️创业那些事儿:招人标准、股权分配、初创公司容易踩的坑

⭕️“看十年,想三年,做一年”,公司战略不能只为了融资

⭕️做人形机器人的都是骗子?会飞的汽车、科幻和商业的矛盾

⭕️尊敬波士顿动力和Deepmind、反对以两条腿作为卖点

⭕️理想中的团队:信仰战士一起奋斗

⭕️离开图森后、再次创业前的思考斟酌,今非昔比的市场环境

⭕️无人驾驶卡车在十年内一定可以实现?物流系统的升级迭代势在必行

⭕️“实名反对马斯克:他在伤害无人驾驶行业”

⭕️特斯拉的Robotaxi:大概率是辅助驾驶的出租车

⭕️全球自动驾驶目前的发展水平:面临资本寒冬,但产品形态越来越清晰

⭕️激光雷达 vs 机器视觉:能抓到耗子的就是好猫

⭕️谈谈Sora的世界模型

⭕️长尾问题目前不是无人驾驶卡车需要考虑的问题

以下是部分访谈精选:

01 我为什么实名反对马斯克

《硅谷101》:为什么再次创业还是选了自动驾驶这个方向?

侯晓迪:因为看见所以相信。我在过去的七年中也看到了一些不变性,这是我最宝贵的财富,也是支持我做下一次事业的出发点。首先是技术管理的能力,更多的是行业里面的一些必然趋势,这些必然趋势让我觉得无人驾驶一定可以做出来。

无人驾驶这件事,之前的问题就在于大家都在做一个骗钱的生意,但是我们现在要做一个赚钱的生意。大概在未来的三四年,也就是2026或者2027年,我觉得自动驾驶就可以实现商业化或者说就能开始在一些特定场景下赚钱了,真正的规模化我觉得应该在2030年前后可以实现。

当然了,这个时间节点是我和我们公司在一个理性乐观的情况下给出的预估,但是对于整个行业而言,我没有这么乐观的估计,因为这还是取决于具体的人和团队,而人和人的差距比人和狗的差距还大。

《硅谷101》:相比于自动驾驶刚刚成立的时候,这几年其实已经非常少看到这个行业拿到融资的情况了。你会觉得行业在一个寒冬期吗?

侯晓迪:我觉得是这样,穷有穷的活法,富有富的活法。大家可能都认为自动驾驶是一个高资金门槛的行业,烧钱烧得太贵了,但是在我看来不是这样。花了那么多钱,但是实际上这些钱有多少是用在探索上的?有多少钱是用在盲目扩张和其他并不有助于实际开发的事情的?我觉得行业内耗实际上非常大的。那现在可能说得极端一点,就是在一个寸草不生的环境下,我们只需要做自己就可以了。

无人驾驶这个行业,过去七年不变的东西就是它的商业逻辑。这个商业逻辑让我非常坚信这件事一定能做出来,而且它做出来一定能让我们站着把钱挣了。

《硅谷101》:马斯克说他在今年 8 月份要去推robotaxi,你怎么看?

侯晓迪:我觉得首先是这样,我是实名反对Elon Musk的,我认为他做的事情不是一个利他主义的事情,他自己是做辅助驾驶的,但是总喜欢把自己打扮成无人驾驶。我们今天谈的是L4无人驾驶,去掉人并且由软件开发公司承担责任的方案才叫无人驾驶,而FSD叫辅助驾驶,它不是无人驾驶。所以我们做的其实根本不是一个东西。

如果特斯拉撞死人了怎么办?对于马斯克来讲,这不是他的责任。因为特斯拉写得很清楚,谁驾驶谁负责,所以撞死人了,是司机的责任。第二点,绕一大圈回来,他的商业逻辑还是卖车,怎么把车卖得更好是这个公司的核心战略,所以无人驾驶是为了辅助他卖车的,并不是这个公司的底色。它让你觉得它是无人驾驶,但它实际上是辅助驾驶。

再回到马斯克发表8月 8 日要做 robotaxi 的陈述。如果他8月8日没做出来,投资人们一定会来问我,是不是这事做不出来啦?那第二种可能是 8月8日真的运营了,然后第二天撞车了。投资人肯定也会担心:马斯克都撞车了,你们行不行啊?这事果然不安全啊。好,第三种情况是开始运营了,没撞车。那投资人们会说,你看马斯克都做出来了,人家降维打击你们,你们怎么办呀?

所以马斯克发出这个陈述的时候他就已经赢了,我们已经输了,或者说他没有赢,但我们已经输了。我觉得一个问题就在于,大家真的过多地去相信马斯克说的每句话,但是如果我们去看看马斯克之前说的事情,他有做成的地方,但是他做不成的东西更多。这个人做的很多事情还是以表演为主。他的很多言论肥了自己,但是实际上伤害到了无人驾驶整个行业。

比如说无人驾驶要不要上激光雷达这个问题,他说你有激光雷达你就弱,但是我认为黑猫白猫抓着耗子就是好猫,激光雷达弱不弱最后我们需要核算的是成本,如果加了激光雷达我们能赚钱,我们就加。我想告诉大家这件事的本源是怎样的,这有可能并不是一个最有效率的、最有利于对自己发展方向的手段,但是我们至少不应该去做一些有损整个行业前进的事情。

《硅谷101》:如果他们做成了,这个行业会不会就重新回暖了?

侯晓迪:首先我觉得做不成,因为之前那个车的租期到了,最近我太太特意换了辆特斯拉,我自己去开特斯拉, 10 分钟一次接管,以我做无人驾驶这么多年的标准,它目前根本不可能做成robotaxi 的运营,至少不可能在8月8日做成Waymo程度的运营,不过当然了,它可以在里面偷换很多概念。到时候开一个有辅助驾驶功能的出租车公司,这是有可能做到的,但是一定不是 Waymo 这种程度的。

《硅谷101》:不过特斯拉其实有在辅助驾驶上积累很多的数据,这些数据能不能帮它更快地解决一些在无人驾驶上的 corner case(极端情况)?

侯晓迪:我们认为无人驾驶是一个世界级的、竞赛水平很高的行业。在非常低的水平,当你做任务a的时候,它也许能够帮助到任务b,但当你的水平越来越高的时候,你是做不到的。

在非常低水平,你确实可以说L2是有帮助的,谁也不能否认它是有帮助的。但是 L4 无人驾驶要解决的核心问题是什么呢?是安全性,是冗余,是当一个系统的每一个模块都有可能会失效的时候,这个系统还仍然能够保障最底线的安全,这才是 L4 最难和最关键的部分。所以在挣钱之前它要先解决安全性的问题,但是这件事情根本不是特斯拉的设计宗旨。

02 自动驾驶的核心难题:不是少数的大问题,而是大量的小问题

《硅谷101》:你觉得自动驾驶的错误观念跟正确观念是什么?

侯晓迪:我觉得首先无人驾驶现在需要解决的不是一个少数的大问题,而是大量的小问题。无人驾驶最大的问题之一是运营不稳定,而这个运营不稳定有可能是因为网线质量不行导致的,比如每天上传下载数据效率很低之类的,这个事情就太复杂了,但是它绝对不是一个一句话能讲清楚的大问题,而是由大量的小问题组成。我们在做的其实就是一个组织结构,这考验的就是你的组织是否进化到具备以变态高的效率去解决大量小问题的能力。

我们不断地去改变组织结构,去适应新的时代,最终的目的就是让组织用最少的人,能干最多的活,并且可以最快地去解决这个事。它必然是跟一些大公司的文化是对立的,什么时候如果一个公司认为你做不出来一个奇迹是不应该被批评的,因为我们要包容,我们要保证团队的气氛比较好,这个时候这个公司就已经死了,他就已经不是一个创业公司了。

《硅谷101》:我之前跟 Cruise 的人聊,他说其实 Cruise 内部在面临非常大的一个问题,也是运营问题。旧金山的无人驾驶事故让Cruise元气大伤,这件事有一点点巧合的因素在里面,我们就不展开说了。但是其实这个是大家能看到的,大家不能看到的就是不管是你剐蹭,或者是别人故意蹭你,他们都会有一个非常大的团队每天专门去处理这些个案性的无人驾驶车带来的问题。

侯晓迪:对,你看这不就是运营嘛?这就是无人驾驶的运营问题。如果你落地的时候有问题,你要么是自己去扛这个运营的问题,要么就是找一冤大头让他来扛这个问题。首先冤大头的数量是有限的,哪天冤大头自己发现亏钱了,他也不会继续冤下去了,所以我们不能坑我们的客户,我认为运营一定是要无人驾驶公司自己来担的,这是第一。

第二就是你说这种小的剐蹭问题,其实它更根本反映的是什么呢?在城市交通里面,我们的交通规则是不完善的,再具体说就是交通规则的权责划分是不完善的。如果你在开车,右边有一个自行车道,然后你想右拐,是不是就应该往自行车道走?这时候谁有责,谁有路权,撞了以后是谁的责任?这件事是不清晰的,而且也不会清晰。因为你面对的是一个人,人们在做审判的时候总是倾向于认为机器应该是完美服从于人的。人可以犯各种错,人可以跟人共情,但人不会跟电脑共情。所以在这个问题上,无人驾驶在一个权责不清的交通环境下,它一定是非常难做的。

那么城区是权责不清最严重的地方,这就是为什么一开始我就做卡车,做了 7 年,我现在还做卡车。卡车其实就不会像在城市交通,尤其是拥堵的城市交通里面会遇到这么多权责不清的情况。我们的经验认为,即使是在最后一公里的状况下,卡车所面临的权责不清的交通场景也是非常非常少的。

《硅谷101》:所以你觉得高速是一个比城市更容易实现无人驾驶的地方?

侯晓迪:对,而且卡车的无人驾驶,我不用去解决这些不可解的问题——既要守交通规则,又要确保乘客的安全和乘客乘坐体验的舒适,同时我还要需要确保周边其他道路交通的参与者的安全,这三个东西放在一起就是不可解问题。

比如机器能否压双黄线这个问题。很多时候如果压双黄线,我就能够比较快速绕过去解决一个问题,但是压双黄线就是违反交通规则了。那如果我遵守交通规则慢慢等着,乘客可能会觉得我太慢了,然后给差评。此外,我还要跟其他不守交通规则的人去竞争,并且出了责任以后,我会被放到一个非常不利的被审判的位置上,因为我是电脑,我就应该把事情做完美。这三个东西加起来,无人驾驶就很难了。

但是如果第一我没有乘客,第二我可以牺牲运营的时间和效率去确保我的安全和合规,只要这个矛盾发生的概率足够小,它就能是一个合理的商业模式。

03 大模型里有成千上百的小创新,无人驾驶都能用上

《硅谷101》:因为大模型特别火,你觉得大模型对自动驾驶的技术会有什么帮助吗?

侯晓迪:大模型非常火,但是我觉得绝大部分谈大模型的人根本不懂什么是大模型。我认为大模型不是一种参数越多就越厉害的东西,它是一种具备了迁移能力的模型。在 computer vision 领域,其实很久以前人们就已经发现,当一个模型训练到一定程度以后,它的内蕴表达是具有很高价值的,这个内蕴表达能够以比较低甚至是零成本迁移到另外一个任务上,这就是模型的迁移能力,是它推动了这一波大模型。

在以前没有迁移能力的时候,适应成本是非常高的。当你的系统学会了做一件事儿,想用它做第二件事时,需要把原来做好的系统再放到一个看起来相似但不完全相同的场景下,成本非常高。那么现在这种迁移成本变得越来越低。

迁移成本,也就是落地成本的降低,使得很多事情变得可做了,我觉得这就是人工智能这一次给大家带来的比较大的启示。但是我想说这不是一朝一夕的事情,其实在 deep learning 2012年被提出以后, 我们每几年就能发现迁移能力、泛化能力在不断提升。我作为一个从业者,看到的是一个渐变的过程,它不是一个突变的过程。

如果咱们做个科技考古,真正出圈的事情是ChatGPT,但是GPT 1、GPT 2的大模型从根本上跟 GPT 3 或者 ChatGPT 背后的GPT 3.5,能力差距到底有那么大吗?我觉得其实没有。从学术角度来看,它是一个很连续的过程,但是ChatGPT出圈恰恰是因为它把问答这件事做好了,能让一个普通老百姓感受到语言模型的威力。

而讽刺的是问答这件事做好,背后的技术能力中我觉得最重要的是 RLHF(Reinforcement Learning with Human Feedback ) 这个技术,这个技术的卖点恰恰是说我可以用 1% 的参数量就能达到一个跟之前更大的模型一样的效果。所以这件事儿其实反倒不是大模型给你带来的优势,而是说我可以提升学习的效率,使得我的模型能达到更好的效果。

所以在我看来的话,首先模型学习效率的提升是一个主旋律,在这个主旋律下,当到达了一个阈值以后,它进入到公众视野,大家就开始说这个事情变得很厉害,它可能突然能改变世界,但是从学术角度看的话,它是一系列的小创新叠加起来产生到今天这样一个效果。

当然我相信很多人会谈Scaling Law,但是这不是今天才发现的,任何非参数模型都有Scaling Law。10 年前我们谈 Kernel Method,谈非参数学习,任何非参数学习里面你都可以说我们的参数量更大,我的学习效果就是更好,这是一个公认的事情,所以我觉得它只是陈述了一个必然现象,但是这个必然现象不应该是我们认为的唯一福音。

《硅谷101》:那么现在更大的模型出来了,它有在一些方向上表现出更好的效果,在这个过程中,你觉得已经训练出来的这些技术有没有可以用到自动驾驶的?因为你的研发分很多个环节,有没有哪个环节能够用到大模型,让它变得更好的?

侯晓迪:全部环节都能用上。首先我们把大模型打散,不要把大模型当成是一块大石头,大模型可能是一把沙子,它里边有成千上万的小创新。这里边几乎所有的小创新如果能够择其善者,它一定能全方位地提升一个公司的科技竞争力。

举一个具体一点的例子,比如预训练这件事,对于大模型来讲,可能有100 篇 paper 在讲它在预训练过程中的各种奇迹淫巧。那传统的范式是,我先招一个标定团队,标定 1000 万张照片,再把这 1000 万张照片放到 Deep Learning 里边,训练出一个结果来,然后完成一个神经网络的冷启动过程。而当这些paper中的各种奇迹淫巧都叠加起来以后你会发现,好像我并不需要用传统的范式了,现在我可以有各种花式的方法降低我的标定成本,提升我对于未标定数据的消化能力。最终使得整体的开发成本降低。

我们并不是应用了大模型,而是应用了比如100个奇迹淫巧中的36个,用上了这些小窍门,我们的冷启动问题就非常低成本高效率的解决了。

《硅谷101》:所以我理解其实在整个过程里面,你们不仅仅只是用模型的结果或者接口,而是你们会去学他的研究方法,然后看他的研究方法能够从根本上去改变哪些问题。

侯晓迪:谁也不会直接用别人的模型,就你一定得自己搞自己的模型。2012年以后大家都在用神经网络,那我们也在用神经网络,但肯定用的是自家的神经网络,你怎么去训练呢?训练的过程里边有特别多的门道,你怎么把预训练的数据准备好、你怎么训练、要买多少张GPU、怎么做能够让 training 变得更有效率……这些所有的东西都是创新的一部分。在我看来,新的时代就是在整个行业生命周期的各个部分都赋予了我们新的提升效率的手段和新的思路。

04 管理与招人:在火箭上不挑座位

《硅谷101》:你觉得在你的管理经验上对你启发最大的人或者事是什么?

侯晓迪:一个是我早期特别喜欢Andy Grove的两本书,一本是《Only the Paranoid Survive》,但那本书我觉得它有太强的时代背景,但是另外一本书时代性没有那么强,换句话说,它过了这么多年仍然适用,叫做《High Output Management》。这个书其实就是着眼于作为一个管理者需要做的事情,这可能是在 2022 年以前,我觉得对我影响最大的一个理念或者一套系统。

之后我觉得对我影响更大的是曾鸣教授的一些言论和他的一些公开课。其实我觉得作为一个创业者,不要只去想下一轮融资的时候,我要把自己打扮成什么样子,曾教授的话叫做“看十年,想三年,做一年”。如果我们的战略永远是为了下一轮融资怎么活下来,那太没理想了。我们需要想的是,如果要做一个能代表十年二十年的业务,我们应该怎么去设计一条路径,使得我今天做的事情在五年以后仍然是有效果的?

我觉得很多时候创业者是觉得一个项目喜欢就去做,但是很多时候这是停留在直觉上,而直觉是会因为喜怒哀乐改变的,比如说现在这一轮融资压力好大呀,那公司是不是应该朝着这个方向走一走?这种时候你的直觉就被恐惧所支配,动作就可能变形,虽然这次融资故事讲出来了,但是当包袱背在身上,你就很难卸掉了。

所以很多时候,对于一些在战略上错误的事情要坚决地说不,但是“坚决说不”的底气从哪儿来?这是战略带给我们的一个全局思考架构,这个全局的思考架构能帮助我们战胜战术上需要勇气说不的事情。

《硅谷101》:当你更着眼于长期的时候,其实短期跟长期之间是有一个平衡的。比如说你要去融资的时候,你有时候阶段性的需要冲到一些里程碑,你会觉得有在这两者之间发生冲突的时候吗?

侯晓迪:我觉得战略就是为了让这两者不发生冲突。如果从比较短期来看,那我现在最不该做的就是无人驾驶了。去做机器人,尤其是做两条腿的机器人现在是很容易融资的。人家一看两条腿的,具身智能。对,记住我这句话,凡是拿两条腿儿出来卖的都是骗子,我至今没有看到两条腿儿可以产生具体的商业价值的点。

人形机器人满足的是一种大家对科幻的幻想,我觉得这就跟会飞的汽车一样,是由几十年以来的科幻带给人类社会的价值,但是科幻从来不是从商业逻辑出发的,科幻是因为酷,所以才被提出来的,这件事情引起的是你的情感共鸣,但是它从来不是引起的你的商业逻辑共鸣。

这个世界的悲惨之处就在于有很多投资人是投情感共鸣的,但是如果你真的作为创业者想把事情做出来,你要做的是商业逻辑上的正确性,这两者很多时候是矛盾的,我认为最典型的两个,一个是两条腿的机器人,一个是会飞的汽车。在科幻里,汽车能够飞来飞去,但是我们从物理上看,我们的能量储存、能量使用效率并没有达到能让车飞起来的一个状态。

《硅谷101》:所以你觉得马斯克的人形机器人 Optimus 还有波士顿动力都是骗子?

侯晓迪:Boston Dynamics 是一个我非常敬佩的长期主义的公司,除了两条腿 ,它也有四条腿的机器人。它想先回答的问题是四条腿甚至两条腿的东西有没有可能做出来,它是在探索控制论的边界。所以这么多年它在做的事情是坚持不断地给自己加难度,去做一个科学探索。

但是我觉得不应该用具身智能突然画一个很大的饼,我认为我不喜欢的地方就是现在画的这个饼过大,而这个饼里边缺失的环节过多,但是大家在评估这个产业时,又会集体性的选择忽视其中缺失的环节,它成为了一个暂时无法证伪的愿景。

如果你看到一个趋势就不加节制的外推是很愚蠢的,但凡你了解事情更根本的运行规律,并且能从第一性原则出发,实际上就能够推演出来很多决定性的限制因素。而这些限制因素会帮你更准确地预测未来,于是很多时候你就会看到你预测的未来比别人预测的未来结果要悲观很多。

但是我的本意并不想过度批判机器人,我觉得现在有很多的任务,我们确实发现了曙光,比如它的泛化能力变得比以前更强了,它能解决更多具体的问题了。但是我想说的是,如果今天就要做两条腿、并且拿两条腿作为卖点的机器人,这件事情我是坚决反对的,但是你说这个机器人可以在更大的规模上去替换掉在工厂里拧螺丝的人,这件事我是认同的,而且我觉得这件事在比较近的未来就会发生。

《硅谷101》:你怎么去定义一个好的团队?在你看来,什么样的团队是能够解决 L4 运营的最好的团队,如何去组建这样一个团队?

侯晓迪:我没法定义一个好的团队,但我能给出好团队的一些特性。我能想到的第一个特性就是这个团队必须非常灵活,我坚信一件事情就是叫做 fluid organization,就是流动性组织,比如说我们的做 deep learning 的团队可以去搞Infra,能做到这种程度,在这个前进方向上做得越极致,这个团队战斗力就越强。

我觉得公司的文化应该是为大家共同的事业效忠,这件事情高于你个人的利益,某种意义上有一定集体主义的色彩在,因为如果我们没有这样程度的认知,每一个人都问公司,我凭什么加入你们?我这么厉害的人,我加入你,我的事业的增长必须是一条最好的路径,你要为我事业增长的这条路负责,如果每个员工都这么想的话,这活儿别干了。

我希望招到的员工他可以暂时不会这个新的技术,但是他是有潜力的,他是可以被培养的 ,首先很重要的一点就是别太把自己当回事儿。如果这个事业是我们值得效忠的,那我们就一起为他努力,不要太去计较个人的得失。就像Eric Schmid说的,在火箭上不挑座位。

《硅谷101》:之前和你的一个投资人聊,他说你从图森的事情出来之后,基本上没有缓冲时间,然后马上就投入自己新的项目中,你当时是怎么思考的?

侯晓迪:没有没有,这是乱讲,其实在 3 月份之前我并不知道我要做什么,我花了很多时间,在想接下来要干什么,最有价值的东西是什么呢?

那时其实正好是ChatGPT出来的时候,大语言模型的进展令我也很震惊,为什么我没有做大模型呢 ?因为大语言模型当下的进展是技术进展,技术进展到产品之间的不确定性还很长,我已经走过这样的弯路了。当时我看到deep learning 在图像领域的进展,就去搞了第一家公司知图科技,做了一年以后发现其实这里边技术并不能够成为商业模式中最主要的部分,就是在商业上的不确定性,并不是一个技术问题。

而这个不确定性现在出现在大模型领域,到底什么样的商业模式对于大模型领域是合适的、真正能赚钱的?到底是大公司能先跑出来,还是小公司?最有早期应用价值的是哪部分?这些问题我都无法回答,所以我不应该因为一个技术强开,就进入到这个领域里面,我还是觉得应该说怎么赚钱,才是最基本的问题,也是最难回答的问题,回答清楚这个问题才能够进入到这个领域里。

所以最后我经过了仔细的权衡,还是认为过去 7 年我在无人驾驶领域的观察让我看到了这个领域的不变性,这是我最有价值的经验和知识。

我觉得每一个投资人都会说,哎呀晓迪你不该去做无人驾驶,你该做点别的,你要做大模型,我现在就给你投钱。我说我不做大模型,我们都不清楚未来会是什么样。无人驾驶是我明确一定能做出来的事情,我还是想去做这个确定性更高的事。作为一个长期主义者,我看到的是长期的确定性,而这件事情的价值被很多没有长期主义视野的人低估。

如果把时间的窗口拉到十年,我很难想象人类作为一个种群,十年之后还由人来开车。物流系统必须有一次它的迭代和升级,这个升级由谁来完成?这个使命就放在这里,我想把这个使命实现。

05 世界模型:新瓶装旧酒

《硅谷101》:现在全球的自动驾驶到了什么样的一个水平呢?它面临的主要问题跟瓶颈是什么?

侯晓迪:革命进入低潮期,面临着由加息带来的纯资本问题,但是资本又是很重要的一个问题。资本能浇灌一个行业,行业里边有了闲钱,人们的创造力就会得到解放,去发现一些可有可无的东西。早期技术的发展和产品的发展可能没有那么直接相关,很多时候你为了做一个技术,会发现产品最后一团糟,有的时候你为了做一个产品,你发现技术用在了你想象不到的地方。但是在这之后,技术就有可能就会被用在更正确的产品上。

不过这个低潮期跟技术没什么关系,技术还是稳步甚至加速在发展。和大模型领域不同,无人驾驶行业的产品形态已经越来越清晰,这是我认为我过去几年最大的价值。

《硅谷101》:Sora 出来之后,这种世界模拟器的概念是不是能够赋能无人驾驶界可以发展的更快?

侯晓迪:咱们来个长议题,咱们谈谈世界模型。什么是世界模型呢?世界模型就是新瓶装旧酒,一九八几年的时候,机器视觉这个行业诞生的那个时刻, David Marr 老师就提出来了一个叫做 mid-level representation,他的这个概念也引导我入行,引导我读完整个本科初步的探索以及博士深入的探索。

在计算机视觉领域,我觉得 mid-level representation 是我最喜欢的一个议题。mid-level representation 后来也叫 internal representation(内蕴表达)。过了几年 deep learning 出来了,大家认为 deep learning 解决的核心问题是什么呢?其实是 representation 的问题。于是有一个特别著名的会议在 deep learning 诞生以后提出来,叫做 ICLRA, 这个会本身讲的就是 the learning of the representation,就是说这个内蕴表达或者内蕴表征是可以被学到的,而且应该被学到,而怎么学就是我们探索的事情。

这件事情不断地被人包装,2024 年的版本叫做世界模型,但是这个世界模型首先可大可小,它的精度也是可糙可细。所以我觉得首先世界模型这件事它确实是一个本质问题,但是这个本质问题不新,其实 40 年前就已经有了,而且确实是 40 年以来贯穿整个计算机视觉和模式识别发展的核心问题。但是愚者的原罪在于外推,外推的地方就是说大家谈到世界模型就会把它认为是一个可以无限高精度的、无限远未来的外推模型,这是不对的,这就是我说的错误的外推世界模型。对外在世界的内蕴表达,这件事情是我们一直以来的追求,是我们整个行业几辈几代人一直以来的追求。但是不要把这个事情它的最终形态的结果就当成现在已经有的东西。

那我来再说说 Sora 是什么?Sora 是一个学了一套东西,使得它让你看起来这个东西像那么回事。很多年前有一个迪士尼电影叫做冰雪奇缘。

冰雪奇缘这个电影它干的事是什么呢?是当时电影工业 CG Computer Graphics,人们突然提出了一个新的算法,能够模拟雪这种非牛顿流体的流体力学,雪不是液体,也不是缸体,它是一种有一定粘连性,但是又能散开的东西。如果你像用每一个粒子去模拟雪的动态过程的话,那累死了,机器做不了。

但是如果我们找到了一种简化的近似算法,让这坨雪看起来像是雪,那我们就觉得这件事情就是计算上足够便宜,可以用渲染集群渲染出一个动画片。所以是基于一个算法的创新,做了这个动画片,就为了这盘醋包了一锅饺子。可能我说的有点夸张,但是确实冰雪奇缘之所以能做出来,背后最大的创新是 Computer Graphics 的创新,但是这种创新并不能够让你用到比如说飞机的流体力学上,它跟真正的物理真实是两码事。他所做的只是看起来像是真的,那么 Sora 给我们带来的一个状态,也是说他做了一个模拟器,看起来像是真的,但是这件事情不是物理真实。

《硅谷101》:业界对于自动驾驶的长尾问题,现在还有什么好的方法去解决吗?

侯晓迪:我觉得长尾问题其实也是一个伪命题,很高兴你们提出来这个事情。在我看来长尾问题,比如说我见到鳄鱼怎么处理?我见到大象怎么处理?我见着一个固定翼飞机停在高速公路上,我怎么处理这件事情?大家都觉得它是长尾问题。比如在我的前进路径上,见到了一个没见过的物体,我怎么处理?但是如果你把它包裹成了一个更通用的一类问题,它是很好处理的。

比如说我们曾经就见到有固定翼飞机停在高速公路上,那我们的处理方法很简单,停车对吧?这是好处理的情况,但是其实人们感觉长尾问题很难处理,是很难当场让这个车做出一个人类经过深思熟虑以后认为最优的操作,再去跟这个场景进行交互,这件事情是难的。

首先机器的感知没那么难,尤其再加上激光雷达或者双目视觉以后,各种各样的问题你都能识别,但是你如何跟他进行交互?如果一个鳄鱼来了,一个骆驼来了,一个兔子来了你都要怎么操作?对于这种问题确实是你需要回答的长尾问题,但是我觉得我们的无人驾驶卡车是不需要做这样的回答的。

如果当你有乘客在无人驾驶轿车里面的时候,你要顾及一个不可能三角,就是交规要满足乘客的体验、要满足路上其他的道路参与者的安全和他们的感受,在这个不可能三角的情况下,确实存在有很多你需要特事特办的讨论。但是我觉得无人驾驶卡车如果在全局平均意义下来讲,我们的运营成本是可接受的。运营产生的额外成本,比如我因为见到飞机停在路边儿这件事情产生的成本,是能够被我的每英里成本所消化的,那我觉得这事儿我们就可以做。

  • 自动驾驶的等级:

通俗来讲,L2 是辅助驾驶, L3 是部分自动驾驶, L4 是自动驾驶。L3 跟 L4 的区别是在系统失效的时候, L3 需要人去接管,事故的责任方在驾驶员;L4 驾驶员的角色变成了乘客,而且车在一定场景下是完全可以自己开了,人也不需要去承担任何驾驶的事故责任。