参考文献:
B. Mersch, X. Chen, J. Behley, and C. Stachniss, “Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks,” in Proc. of the Conf. on Robot Learning (CoRL), 2021
大多数自动驾驶汽车使用 3D 激光扫描仪,即所谓的 LiDAR,来感知周围的 3D 世界。LiDAR 生成汽车周围场景的局部 3D 点云。一个典型的 LiDAR 传感器每秒生成大约 10 个这样的点云。这些 3D 点云广泛用于众多机器人和自动驾驶任务,如定位、物体检测、避障、映射、场景解释和轨迹预测.
预测传感器在未来可能会看到什么的能力可以增强自动驾驶汽车的决策。一个有前途的应用是将预测的点云用于路径规划任务,例如避免碰撞。例如,与预测交通代理未来 3D 边界框的方法相比,点云预测不需要任何先前的推理步骤,例如定位、检测或跟踪来预测未来场景。在预测的点云上运行现成的检测和跟踪系统会产生未来的 3D 对象边界框,正如去年不同研究人员在点云预测中所展示的那样(Weng 等人在 CoRL'20;Lu 等人,通过在 arXiv上发表的文章) . 从机器学习的角度来看,点云预测是一个有趣的问题,因为下一次传入的 LiDAR 扫描总是提供地面实况数据。此属性提供了以自我监督的方式训练点云预测的潜力,无需昂贵的标记,并且还可以在线评估其性能,仅在未知环境中具有很小的时间延迟.
在最近由 Benedikt Mersch 在 CoRL 2021 上展示的工作(https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/mersch2021corl.pdf)中,源代码可用(https://github.com/PRBonn/point-cloud-prediction),解决了从给定的过去扫描序列中预测大型无序未来点云的问题.高维和稀疏的 3D 点云数据使点云预测成为一个尚未完全探索的具有挑战性的问题.可以通过将预测的未来场景流应用于最后接收的扫描或生成一组新的未来点来估计未来点云.默施等人专注于生成新的点云来预测未来的场景.与利用循环神经网络来建模时间对应关系的现有方法相比,使用 3D 卷积来联合编码空间和时间信息,以上论文提出的方法采用基于连接范围图像的新 3D 表示作为输入。它联合估计未来范围图像和每个点的分数,以确定多个未来时间步长的有效点或无效点,该方法可以通过使用跳跃连接和使用圆形填充的水平一致性来获取环境的结构细节,并提供比其他最先进的点云预测方法更准确的预测.
这种方法允许使用减少的参数数量来预测不同大小的详细未来点云以进行优化,从而加快训练和推理时间.此外,该方法也是完全自我监督的,不需要对数据进行任何手动标记.总之,该方法可以通过使用时间 3D 卷积网络的快速联合时空点云处理,从给定的输入序列预测一系列详细的未来 3D 点云,优于最先进的点云预测方法,概括很好地适应看不见的环境,并且比典型的旋转 3D LiDAR 传感器帧速率更快地在线运行.