QBlog 04|边界化难题终结者!将自监督学习应用到自动驾驶上

2021-05-21

QBlog 04|边界化难题终结者!将自监督学习应用到自动驾驶上

发布时间:2021-12-31

有人说,自动驾驶已经解决了 90% 的问题,但剩下 10% 的问题却是最难解决的,这 10% 包括很多边界化难题,经常被称为 Corner Case。边界化难题一般是指从未遇到过的问题,因为缺少数据,自动驾驶车辆无法应对这些问题,比如下图这个披着恐龙服的小孩。



也有人说,人工智能这东西,有多少智能,就有多少人工。因为目前深度学习技术常运用监督式学习,这种方式过于依赖大规模标注数据集,需要耗费大量的人力来完成数据集的收集和人工标注。对于自动驾驶而言,通过实际路测获得足够多的有意义的数据更不是一件容易的事。

这些老大难的问题,在自监督学习这一概念的支撑下似乎都有解了。

近日,国内自动驾驶公司轻舟智航联手约翰霍普金斯大学的学者,借助自监督学习,从未标注的激光雷达点云和配对的相机图像中获得了点云运动信息,在不需要标注数据的情况下,就可以较好地理解交通参与者的运动。

目前,这一研究成果已被 CVPR 2021 收录。CVPR 是一年一度的学术性会议,也是世界顶级的计算机视觉会议之一。

自监督学习是人工智能蛋糕里最大的一块


在介绍这一成果之前,我们先来看下究竟什么是自监督学习。

监督学习需要有大量的标注数据,被学术界诟病已久,加州大学伯克利分校教授 Jitendra Malik 就曾经说过:“监督学习是人工智能研究人员的鸦片”。而在卡耐基梅隆大学教授 Alyosha Efros 看来,“属于人工智能的革命是不会受到监督的”( The AI revolution will not be supervised)。

自监督学习解决的是监督学习过于依赖大规模标注数据集的难题,能从大规模未标记数据中学习特征,无需使用任何人工标注数据。目前已被应用在自然语言处理和计算机视觉领域。

典型的自监督任务包括给照片上色:


把模糊的照片变高清:

自监督学习已经是 AI 领域里最令人兴奋的方向,深度学习三巨头之一、图灵奖得主、Facebook 首席 AI 科学家 Yann Lecun 是这么比喻自监督学习的:“如果人工智能是一块蛋糕,那么蛋糕的最大一部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。”

为什么会想把自监督学习应用到车载激光雷达点云上

当自动驾驶汽车在行驶过程中,需要实时理解各种交通参与者的运动,这些运动状态信息对于各个技术模块来说都非常重要,涉及检测、跟踪、预测、规划等等。

自动驾驶汽车通常配有多个传感器,其中最常用的是激光雷达。因此,如何从点云中获得其他交通参与者的运动信息是一个重要课题,并且存在如下挑战:

交通参与者的类别不一样,每个类别都表现出特定的运动行为;

激光雷达点云的稀疏性导致两次激光雷达扫描的情况不能精确地被对应起来;

需要在很短的时间内和有限的车载算力下完成计算。

传统的做法,是通过识别场景中其它交通参与者,根据所观测到的历史信息,来预测交通场景会如何变化,从而实现预测。

但是,大多数识别模型都是为检测若干已知类别的物体而训练的。在实际情况中,经常会遇上从未出现过的物体类,因此这肯定不是长久之计。

另一种做法是通过估计激光雷达点云每个点的 3D 运动来从点云中估计场景流,但这样做对计算的要求太高了,自动驾驶车又特别需要满足实时性,所以根本无法进行实际应用。

第三种做法是基于 BEV(Bird’s Eye View)的方式,把激光雷达的点云画成一个个小网格,每个网格单元被称为体柱,点云的运动信息可以通过所有体柱的位移向量来描述,该位移向量描述了每个体柱在地面上的移动大小和方向。

这种表征方法成功简化了运动场景,反正只需要考虑在水平方向上的运动情况,而不用特别考虑垂直方向上的运动。这种方式的所有关键操作都可以通过 2D 卷积进行,计算速度非常快。但是,这种方式需要依靠大量带有标注的点云数据,但点云数据的标注成本比普通图像更高。

据统计,这些现状,激发了轻舟智航和约翰霍普金斯大学学者的研究兴趣。一辆自动驾驶汽车每天会产生超过 1TB 的数据,但仅有不到 5% 的数据被利用,若能把其他数据也充分利用起来,在没有手工标注的数据上来进行学习,效率必将大幅提升。

用于自动驾驶的自监督“点云运动学习”

如图 1 所示,为了充分利用 BEV 中运动表征的优点,研究团队将点云组织成体柱(Pillar),并将与每个体柱相关的运动信息称为体柱运动(Pillar Motion)。

▲ 图1. 该研究提出的自监督体柱运动学习概览

研究团队先引入了一种基于点云的自监督学习方法,假设连续两次扫描之间的体柱或物体的结构形状是不变的。然而,这在大多数情况下是不成立的,因为激光雷达的稀疏扫描,连续的两个点云缺乏精确的点与点的对应。

解决方案是利用从相机图像中提取的光流来提供跨传感器的自监督和正则化。如图 2 所示,这种设计形成了一个统一的学习框架,包括激光雷达和配对相机之间的交互:

(1) 点云有助于将自车运动(Ego-motion)导致的图像运动从光流中分解出来;

(2) 光流为点云中的体柱运动学习提供了辅助正则化;

(3) 反投影(Back-projected)光流形成的概率运动掩膜(Probabilistic Motion Masking)提升了点云结构的一致性。

注意,与相机相关的模块仅用于训练,在推理阶段不会被使用,因此,在运行时不会对相机相关的模块引入额外的计算。

▲ 图2:用于点云体柱运动估计的自监督学习框架


如图 2 所示,该研究提出的运动学习方法将点云的结构一致性自监督与跨传感器的运动正则化紧密耦合。

正则化包括从光流中分解出自我运动,并在传感器之间执行运动一致性(motion agreement)。该研究还引入了一种基于反投影(back-projected)光流的概率运动掩膜(probabilistic motion masking)来增强点云的结构相似性匹配。

▲ 图3. 概率运动掩膜说明,左:投影点在前向相机图像上的光流(已将自我运动分解)。右:点云的一部分,颜色表示非空体柱的静态概率

首个能够在完全自监督框架下进行点云体柱运动预测的学习范式

研究成果的表现究竟如何,还是要靠事实来证明。

研究人员首先进行了各种组合实验,以评估设计中每个单独组件的贡献。如表 1 所示:

▲ 表1. 每个单独组件的贡献,结果包括均值和中位误差

研究团队将他们所采用的方法与表 3 中的各种监督算法进行了比较。

实验首先将提出的自监督模型与 FlowNet3D、HPLFlowNet 进行了比较,这些模型都在 FlyingThings3D 以及 KITTI Scene Flow 进行了预训练。

在表 3 中可以看到,该研究提出的模型在很大程度上优于这两种有监督的预训练模型。

值得注意的是,这一成果甚至优于或接近一些在基准数据集上全监督训练的方法,如 FlowNet3D、HPLFlowNet、PointRCNN。

当使用真值标签进一步微调该研究提出的自监督模型时,该模型实现 SOTA 性能。如表 3 所示,对于快速运动的目标,微调模型明显优于 MotionNet。

这说明研究团队提出的自监督模型为有效的监督训练提供了更好的基础,并且自监督学习的增益不会随着复杂的监督训练而减少。

▲ 表3. 与SOTA结果对比。实验分为三个速度组,表中记录了平均误差和中位误差


最后,实验展示了利用不同的自监督组合进行体柱运动估计的定性结果。

如图 5 所示,这些示例呈现了不同的交通场景。与该研究的完整模型相比,仅使用结构一致性损失的基本模型倾向于在背景区域(第 1 列和第 5 列)和静态前景目标(第 2 列和第 3 列)中生成假阳性运动预测。

与基本模型相比,完整模型还能够在移动目标上产生更平滑的运动(第 5 列和第 6 列)。此外,如第 4 列所示,基本模型中缺少场景右上角的移动卡车,但完全可以通过完整模型进行合理的估计。这再次验证了从相机图像中提取的运动信息的有效性。


▲ 图5. 点云柱运动预测对比。第一行显示真值运动场,第二行显示的是该研究全模型的评估结果,而只使用结构一致性的基础模型的预测结果在第三行。每一列都演示了一个场景

研究团队正是这样通过紧密整合激光雷达点云和配对相机图像来实现所需的自监督,这一成果也是全球首个能够在完全自监督框架下进行点云体柱运动预测的学习范式。

研究团队

研究团队中的两位主要成员都是来自轻舟智航:杨晓东是轻舟智航研发总监,曾任英伟达(NVIDIA Research)高级科学家;罗晨旭则是轻舟智航实习生,也是约翰霍普金斯大学(Johns Hopkins University)计算机科学系博士研究生;Alan Yuille 是约翰霍普金斯大学计算机科学系的彭博杰出教授。


论文题目:Self-Supervised Pillar Motion Learning for Autonomous Driving
收录会议:CVPR 2021
论文链接:https://arxiv.org/abs/2104.08683