关注「黑洞科技观察」

传递科技背后的思考

何小鹏与马斯克最近的隔空争论,将激光雷达又一次带进了大家的视野。

打开网易新闻 查看更多图片

马斯克对激光雷达是旗帜鲜明的反对!他甚至说出“傻子才用激光雷达”这种得罪一大片人的话。

然而,那么多生产激光雷达的厂家不可能都是傻子,而谷歌、苹果、Uber、百度等激光雷达派更不是傻子!

这么说马斯克才是傻子?傻子会成为全球第二的富翁?你信么?

既然大家都不傻?那么关于激光雷达的分歧,就一定有更深层的原因。

有人说马斯克认为激光雷达贵,可特斯拉决定做电动车的时候,也有人说电池贵,结果特斯拉一入局,电池成本立马就降下来了。再说,FSD软件都已经卖到64000人民币了,如果激光雷达能够让自动驾驶成为现实,你觉得马斯克会在乎再加几万块钱么?毕竟Model 3降一次价就几万块。

所以,原因肯定不是贵,至少不仅仅是贵。

要想知道马斯克抵制激光雷达的真正原因,就一定要对自动驾驶有一点基本了解,看懂了自动驾驶的进化本质,才能理解马斯克对激光雷达的恐惧。

接下来,我尽量用最容易理解的方式,带您体验一下自动驾驶这个新物种的进化!

自动驾驶是什么

为了缩减篇幅,咱们直接讨论自动驾驶的本质。

我们回想一下每天早上开车去上班的情形:首先,我们从家里出发;然后,我们会选择一条合适的路线,上路;在路上,我们要观察周围情况,适时并入主路,并切换车道;遇到红灯要停车,遇到并线车辆刹车让一下;转弯路口要提前换车道;进入辅路要让行人;......,到达目的地要停车入位。

这一系列过程,如果让汽车自动完成,那汽车就要搞清楚:我在哪?我要去哪?我要怎么去?

这几个问题贯穿自动驾驶全过程,在任一时刻,汽车都要清楚:

1. 我在哪个位置,哪个车道,前后左右什么情况?

2. 下一时刻我要去哪,保持车道、超车、还是转弯、还是出匝道,还是...?

3. 要怎么做,是加速、是减速、是转向还是刹车?

这三个问题对应着自动驾驶最核心的三层:感知层、决策层和控制层。

打开网易新闻 查看更多图片

上图清楚的呈现了自动驾驶的整个架构,自动驾驶中最重要的人工智能算法(AI),就存在于感知层和决策层。

  • 感知层的人工智能算法根据传感器传回的大量数据,实时检测周围情况,包括车辆、行人、障碍物、车道、交通标识、桥梁等。
  • 决策层的人工智能算法根据感知层提供的环境数据,决定车辆下一时刻的驾驶策略。

这两部分的人工智能算法,是目前最消耗算力的,不管是特斯拉、英伟达还是Mobileye,每一代的硬件都是为了赶上这些人工智能算法的计算需求。

人脑和人工智能算法

既然说到人工智能,就一定要先说一下人脑。人脑的感知和认知功能在大脑皮层,大脑皮层有丰富的神经元细胞体,它们负责接受感知器官神经传来的信号,解读,然后再输出信号给躯体运动神经。

我们举一个视觉到动作的完整例子:

  • 当我们开车的时候,看到前方有行人横穿马路。首先太阳光在行人身上反射进入我们的眼睛,然后刺激视网膜的感光细胞,形成生物电信号,通过视神经传向大脑皮层。信号先到达大脑枕叶的初级视觉皮层,也就是下图区域1,在这个区域恢复出颜色,方向,以及边缘、材质等信息。既然是初级皮层,信息肯定不丰富,需要进一步加工。

  • 信息在区域1一分为二,一部分通过下面的腹侧通路,进入下颞叶皮层的区域2,大脑在这里分析视觉信息的内容,比如是什么人,男人女人,大人小孩等等;另一部分通过上面的背侧通路,经由中颞叶皮层到达顶叶皮层的区域3,大脑在这里分析目标的运动,位置,方向等信息。
  • 在区域2和3得到的信息,经过大脑的复杂反射(也就是后天训练积累的经验),判断出需要停车。然后踩刹车信息送到额叶躯体运动中枢的区域4,并通过中枢神经控制右脚刹车。

看,这就是人类驾驶中的一个很普通过程。

这个过程和人工智能算法的对应关系如下:

  • 大脑皮层区域1、2、3合起来实现了视觉感知,也就是感知层功能,通过眼睛识别前方目标,并对运动方向、速度等进行分析。
  • 大脑皮层区域2、3、4合起来实现了视觉复杂反射,也就是决策层功能,对感知到的目标做出合理的决策判断。

这两部分人工智能算法的核心都是神经网络,我们简单看一下。

上图就是一个典型的神经网络,每个蓝点都是一个神经元,有权重。对于视觉数据来说,输入就是一张图片,MxNx3个数据,其中MN是图片像素尺寸,3是因为每个像素都有RGB三个颜色值。输出是图片中识别出来的目标,包括目标在图片中的位置,大小和类别。实际上输入数据量很大,所以需要做卷积,咱们这篇文章不讨论数学细节,大家知道这个过程就行。

打开网易新闻 查看更多图片

神经网络识别

我接下来说几个神经网络最重要的特点,这些特点同马斯克对激光雷达的态度关系很大!

1. 训练过程。神经网络最重要的就是神经元权重的确定,这是一个训练的过程,给神经网络大量的训练数据,反复调整权重最终达到可接受的识别精度,这是一个漫长的学习过程。

2. 网络架构。神经网络的架构和学习任务关系很大,比如视频和音频的学习、视频和雷达数据的学习,学习网络是不一样的。

3. 硬件结构。提供算力的芯片结构和网络架构关系很大,如果采用通用性强的硬件,那么就无法发挥最好的性能,所以特斯拉才自研芯片,蔚来最近也要自研芯片,就是这个道理。

整个人工智能算法的产生过程,就像是抚养一个婴儿长大一样。不停的教他知识,教他学习的方法,直到他能独立生活。

不论是人,还是自动驾驶,这个过程都是漫长的,也是不可逆的。长大以后,不管是网络架构还是硬件结构,都已经固定。而过去的数据,构成了未来的经验。

特斯拉的视觉方案

我们已经对自动驾驶和人工智能有了基本的了解,那咱们再看看特斯拉基于视觉的自动驾驶方案。

Model 3传感器配置

上图是Model 3的传感器配置:

  • 8个摄像头,前方3个,覆盖远中近距离,两侧各2个,后面一个倒车摄像头。
  • 12个超声波雷达,探测距离8米,停车啥的都能用。而且自动驾驶时也能对周边进行检测,适合肉搏战。
  • 1个毫米波雷达,前向,探测距离160米,在自动驾驶中可以检测前方障碍物并启动自动紧急制动。

什么?特斯拉有雷达?可能有些读者还不知道特斯拉其实有雷达,只不过不是激光雷达。

知道这一点的人越少,说明马斯克在视觉上面的宣称越成功。

特斯拉在AP1.0时是以视觉为主,所以发生了那次致命的卡车事故,导致驾驶员丧命。随后2.0版本,特斯拉提升了毫米波雷达的重要度。也就是说,不经过视频确认,毫米波雷达也可以启动紧急制动。

毫米波雷达的特点是,穿透性和环境适应性好,全天候工作。缺点是容易受金属干扰,比如一个易拉罐,信号会被放大成一个大铁块。还有就是精度不够,无法做精细的3D绘制。

在特斯拉换装了自研芯片以后,视觉方案又开始逐渐占主导作用,这从Model 3的车主手册可以看出:仅当行驶速度大致介于10 km/h和150 km/h之间时,才能使用自动紧急制动。同时,自动紧急制动设计用来减轻冲击的严重程度,它不能用来避免碰撞。

特斯拉对视频方案的信心,部分来源于新的神经网络学习策略。特斯拉有一个影子模式:视觉识别算法始终在检测车辆环境并做出驾驶决策,这个决策不会下发给车辆,只是与驾驶员的操作进行比较。如果驾驶员的操作与算法决策不一致,那么环境数据和驾驶员决策就会被上报,特斯拉则会进行人工核验,并用新数据对算法进行训练,新的算法再下发到车辆。

这个过程就像是同高手过招一样,算法的能力提升很快,比如下面这些情况,算法一开始想不到自行车为什么会自己在路上跑,但是它能够发现自己的困惑。这就好比学习的时候,就怕不知道自己哪里不会。

通过这种方式,特斯拉自动驾驶已经累计了超过160亿公里的实际道路行驶经验。这些经验就是特斯拉自动驾驶的基石。

激光雷达

接下来就要说说激光雷达这个最大的争议了。

激光雷达发射激光束扫描目标的位置、速度。扫描的数据为

,xyz为空间坐标,h是强度,还有一些其他信息。激光雷达扫描的数据,叫点云数据,点云数据可以通过软件可视化。

点云数据可视化

关于激光雷达的优劣,众说纷纭,下面对摄像头、毫米波雷达和激光雷达做个比较:

打开网易新闻 查看更多图片

激光雷达的特点,用一句话概括就是:和摄像头一样,自带主角光环!

如果说摄像头是眼睛,那激光雷达就是手,通过触觉提供清晰的触感。

它能清晰的构建3D场景信息,连每一个台阶的高度都非常精确。激光雷达唯一致命的缺点就是信息单一,和摄像头相比没有颜色信息,不能做某种程度上的“理解”,比如目标是男人还是女人。

俗话说一山不容二虎,摄像头和激光雷达都是老虎。不存在一个方案将摄像头和激光雷达摆在同一个位置,因为这两个设备在自己擅长的领域提供的信息置信度都很高。

如果要同时用,只能是一主一副:

激光雷达为主的方案:通过激光雷达构筑车辆周围环境的3D信息,摄像头采集的信息作为必要补充,结合高精度地图,车辆将会对自身的环境非常清楚,并做驾驶决策。

摄像头为主的方案:通过摄像头对环境信息进行采集,由激光雷达对摄像头识别的目标补充必要的信息,比如距离、尺寸、速度等等,然后车辆根据最终的信息做驾驶决策。

激光雷达对摄像头的补充,也叫传感器融合,这种融合有两个方式:

数据融合:将雷达的数据转成2维并映射到图像上,给图像上面每个像素点添加距离信息,然后用新数据做AI识别。

信息融合:根据雷达的数据,给图像识别的结果补充必要的信息,其实这种方式用高线数的毫米波雷达也能做,特斯拉在这方面是有积累的。

客观的说,目前激光雷达的现状,不足以让量产车型大批量采用。所以激光雷达为主的方案,目前只能是实验室方案。

而摄像头为主的方案,是一段时间内激光雷达在商业上的常态,我相信小鹏的自动驾驶方案也是摄像头为主。

马斯克对进化方向的选择

自动驾驶作为汽车的新功能,就像是生物进化过程中的突变一样,最终只能是适者生存。

在寒武纪早期,生物大多还没有眼睛。后来,一个突变使得藻类进化出了感光细胞,白天就可以浮出水面光合作用,晚上沉入海底。这种感光细胞,就逐渐进化成了生物的眼睛。

自动驾驶就面临着这种突变,摄像头是一个突变方向,激光雷达是另一个突变方向。

由于神经网络的特点是数据定义算法、算法定义硬件。这就注定了自动驾驶的进化是一条不归路。

激光雷达的引入,必须做传感器融合。不管是数据融合,还是信息融合,都对自动驾驶的AI算法产生影响。这就像我们玩王者荣耀一样,你选了不同的角色,就有不同的担当。

激光雷达对特斯拉的影响在如下三个方面:

一、对过去的影响

前面我们说了,特斯拉已经累计了160亿公里的行驶数据。这是特斯拉的财富,是其他车企短期内无法超越的。

如果特斯拉加入了激光雷达,那么这些数据对新方案的重要性大幅降低,相当于自废武功,和其他车企又站到了一个起跑线上。

二、对现在的影响

增加激光雷达,就意味着视觉方案不够好,车前面要加激光雷达,那后面要不要加?侧面要不要加?加多少才够?成本增加多少?

加了激光雷达,计算芯片要不要加?不加就抢了视觉计算本来就不够的算力。加的话成本更高了。

新的AI算法需要新的硬件,研发周期多长?老的产品升不升级?怎么向用户解释?怎么向投资人解释?

这么多顾虑,不是小鹏这种初生牛犊不怕虎的公司能够想象的。

三、对未来的影响

对未来的影响,是马斯克顾虑最大的。

视觉方案现在的困难,主要是3D还原效果不好,导致基于空间的信息不准确,比如目标的尺寸,距离和行驶速度等,而这刚好是激光雷达的长处。

自动驾驶的视觉派并不是马斯克一个人。很多公司和科学家也都认为通过视觉能够完成3D绘制。只是受算法和硬件的限制,暂时无法做到。其实谷歌也有自己的视觉团队,微软、苹果等科技公司在人工智能视觉领域都有很大的投入。特斯拉最受争议,是因为只有他把视觉自动驾驶量产了。

咱们回到人脑的那张图片,目前的视觉方案相当于人脑的区域3这部分功能太弱,激光雷达是对这部分人脑的补充,就像是视力不好看不清需要用手摸一样。

按照马斯克的第一性原则,首先考虑视觉方案的困难能不能克服?如果不能那他早就放弃了。在他看来克服视觉困难只是时间问题,那有什么理由采用激光雷达?一旦用了激光雷达,视觉方案对应的这部分人脑功能就再也不能进化了。最终就变成了一个依靠手去摸的怪物。

这就是马斯克最根本的思维,他笃定了视觉方案终有一天会成熟,会是进化的根本方向。

马斯克警惕的,是激光雷达对进化过程的干扰,会将进化过程带向深渊。

马斯克恐惧的,是特斯拉将来进化成一个怪物!

后话

说了这么多,大家应该知道了自动驾驶不只是一个软件算法,也不只是增添一个硬件这么简单。

谷歌、苹果和百度等公司,能够押注激光雷达为主的方案,是因为他们是综合性科技公司,自动驾驶只是一部分跨界打劫的业务。

而对于车企,情况完全不一样,尤其是要商用的方案,每一个方案都需要数据长期的喂养,这是一条不归路,一个公司只能走一次!

到底哪条路是正确的,说实话没人能完全看清,包括马斯克,包括何小鹏。

但是,至少特斯拉和小鹏做了旗帜鲜明的选择。

到底自动驾驶的未来如何,需要这些勇敢的公司去探索,最终有人成功,有人没落。

正是有了不同的选择,自动驾驶的未来,才能最终进化成功!

在这个角度上看,特斯拉和小鹏都是值得鼓励,值得敬仰的!