打造一台全自动驾驶汽车,到底需要哪些核心技术?
现在来看,各家公司和研究人员似乎对这个问题有不小分歧。
有人相信单纯的摄像头与计算机视觉就能解决战斗,但也有人认为计算机视觉和先进传感器缺一不可。
特斯拉则是纯视觉方案的坚定信徒。
在今年的CVPR(计算视觉与模式识别大会)上,特斯拉首席AI科学家AndrejKarpathy道出了特斯拉如此「执拗」的原因。
在这次的CVPR上,Karpathy还详细介绍了特斯拉是如何基于深度学习开发自动驾驶系统。
除此之外,他还解释了为什么特斯拉基于视觉就能让自动驾驶梦想成真。
就在7月10日,特斯拉开始在美国地区正式推送纯视觉版的FSDBetaV9版本。
纯视觉版的特斯拉,完全依靠车辆前端摄像头来实现自动驾驶。
有海外车主在夜晚体验了这一版本,还有车主在雾蒙蒙的街道上自由顺畅穿行。总体而言,车辆的表现较之前拥有更平滑的加速和减速,转弯时也显得更加自信。
先是声称不用激光雷达,而后又宣布在量产车上移除毫米波雷达,特斯拉坚持纯视觉自动驾驶的底气来自哪里?
通用计算视觉系统这一切要从深度神经网络说起。
深度神经网络是自动驾驶系统的主干技术之一。
神经网络会分析车载摄像头采集到的数据,了解道路、标牌、车辆、障碍以及行人的状况。
不过,深度学习并非万无一失,在检测图像中的物体时,这项技术也会犯错。这也是大多数自动驾驶公司,包括领头羊Waymo在内,选择用激光雷达来搭建三维地图的原因。
激光雷达能为神经网络提供更丰富的信息,以便填补在神经网络上的数据空白。
然而,将激光雷达融入整个自动驾驶系统,也没你想象的那么容易。
「你得用激光雷达提前对周边环境进行扫描,随后生成高精地图。在这之后还要插入所有车道、连接方式以及各种交通信号灯。」Karpathy说道。「在测试时,你只需在高精地图上进行定位,就可以自动驾驶了。」
遗憾的是,用户说走就走的愿望并没有那么容易实现,为自动驾驶汽车打造无处不在的高精地图非常困难。
「只要规模一大,采集、搭建和维护这些高精地图就变成了不可能完成的任务,」Karpathy说道。「更别说高精地图的实时更新了。」
在特斯拉的自动驾驶方案中,并没有出现激光雷达和高精地图。
Karpathy指出,「所有发生的事情都会被车上的8颗摄像头记录下来。」
自动驾驶系统必须弄清楚车道在哪,信号灯在哪,它们状态如何,与车辆间有何关系。
最重要的是,它必须在没有任何导航信息的路况下完成这一切。
Karpathy强调,基于视觉的自动驾驶,在技术角度更难实现,因为它要求神经网络仅仅基于视频输入就能达到超强性能的输出。「不过,一旦取得了突破,就能获得通用视觉系统,方便部署在地球的任何地方。」
有了通用视觉系统,车辆就不再需要什么补充信息了。
Karpathy认为,特斯拉正在朝这个方向努力。在此之前,特斯拉自动驾驶依靠的是毫米波雷达与摄像头双重冗余,而现在的新车则直接砍掉了毫米波雷达。
「我们抛弃了毫米波雷达,车辆只靠视觉来行驶。」Karpathy表示。
在他看来,特斯拉的深度学习系统已经比毫米波雷达强一百倍,现在的毫米波雷达已经开始拖后腿了。
监督学习对于纯计算视觉方案,行业里的主流声音是,谁也说不清神经网络能否在没有激光雷达深度地图的情况下完成测距和深度估算。
「人类驾驶依靠的是视觉,所以我们的神经网络是可以处理视觉输入,并以此理解周边物体深度与速度的。」Karpathy解释道。「不过最大问题在于,合成的神经网络能否做到这一点。我认为,通过过去几个月的工作,特斯拉内部已经达成明确共识,我们训练出的神经网络能担此大任。」
特斯拉工程师想打造的深度学习系统,除了要处理深度、速度和加速度信息,还要同时进行目标探测。
在他们看来,这是监督学习的问题,即神经网络在对标记数据进行训练后,学习目标探测及其相关属性。
为了训练深度学习架构,特斯拉团队需要一个由数以百万计视频组成的庞数据集,并仔细标记其中的目标及其属性。
当然,为自动驾驶汽车创建数据集也颇为棘手,工程师们必须确保数据集有多样化的道路设置和不经常出现的边缘情况。
Karpathy表示:「以我的经验来看,如果你有一个干净且多样化的大型数据集,并以此为基础训练一个庞大的神经网络,成功是有保证的」。
会自动打标签的数据集借助数百万辆「全副武装」的特斯拉电动车,特斯拉在视觉深度学习模型的训练上有着得天独厚的数据优势。
目前,特斯拉的自动驾驶团队已经积累了1.5PB的海量数据,包括100万个10秒的视频和60亿个带有包围框与深度、速度标签的目标。
不过,给这样的数据集打标签是一个巨大的挑战。
一种方法是通过数据标签公对其进行人工标注。这需要花费大量的人工与时间。
相反,特斯拉团队使用了一种自动标记的技术。
由于数
