3D点云基础知识（下）

姓名：周可儿学号：22021211973 学院：电子工程学院

转载自：https://zhuanlan.zhihu.com/p/344635951

【嵌牛导读】3D点云基础知识

【嵌牛鼻子】3D图像描述点云深度学习

【嵌牛提问】点云是什么？点云有什么特点？如何使用点云进行深度学习？

【嵌牛正文】

三维点云有多种表示方法

不同的表示对应着不同的处理方法。比较容易的处理方式为将其投影为二维图像或者转换为三维体素 (Voxel)，从而将无序的空间点转变为规则的数据排列；也可以使用原始点作为表示，不做任何变换，该方式的好处为最大可能保留所有原始信息。此外，点云作为空间无序点集，可以被看作普适意义上的图数据。点云还有另外一种表示，称作网格 (Mesh)，其也可以被看作是构建了局部连接关系的点，即为图。将点云看作图数据，可以使用图领域新兴的图卷积 (Graph Convolution) 技术进行处理。需要提及的是，原始点的表示和图表示之间并无明确界限（事实上原始点云和网格 (Mesh) 之间有一定区别，但若从语义理解方法的角度看，可暂时忽略此区别，将Mesh看作是增加了一种连接关系）

基于二维投影的方法。CNN 最好的应用领域在于图像处理，将三维点云数据投影到二维图像平面，即可使得 CNN 应用于点云数据成为可能。

基于三维体素的方法。对三维点云进行二维投影降低了算法处理的难度，但是三维到二维的投影必然带来几何结构信息的损失，直接进行三维特征的提取在一些场景下是非常有必要的。一种最自然的想法便是 CNN 的延拓，将二维卷积神经网络拓展一个维度，使其可以处理三维排列的数据；同时，对点云进行体素化 (Voxelization)，将其转换为空间上规则排布的栅格，使得三维卷积神经网络(Three Dimension Convolutional Neural Network, 3DCNN) 可以直接应用在这种表示上。

基于原始点的方法。无论是二维投影还是三位体素，均需要对原始点云进行一定的转换，而转换必然带来数据信息的损失。

基于图的方法。现实生活中存在大量的非结构化数据，如交通网络、社交网络等，这些数据的节点间存在联系，可以表示为图。研究图数据的学习是近年来学界的热点。三维点云数据可以看作图数据的一种，图网络的很多思想可以被借鉴于点云数据的特征学习中。图卷积 (Graph Convolution Network, GCN) 可分为基于谱的图卷积(Spectralbased GCN) 和基于空间的图卷积 (Spatial-based GCN)。

相比于图像数据,点云不直接包含空间结构,因此点云的深度模型必须解决三个主要问题:

如何从稀疏的点云找到高信息密度的表示,

如何构建一个网络满足必要的限制如size-variance和permutation-invariance,

如何以较低的时间和计算资源消耗处理大量数据

Metric

Classification method: overall accuracy , mean accuracy

Segmentation models: accuracy , (m)IoU

detection tasks: (m)IoU , accuracy , precision , recall

Object tracking: MOTA , MOTP

scene for estimation: EPE

3D match and registration models: ROC curves

基于点云的分类

对点云的分类通常称为三维形状分类。与图像分类模型相似，三维形状分类模型通常是先通过聚合编码器生成全局嵌入，然后将嵌入通过几个完全连通的层来获得最终结果。

基于点云聚合方法，分类模型大致可分为两类:基于投影的方法和基于点的方法

基于投影的方法

基于投影的方法将非结构化的三维点云投影到特定的预设模态中(例如体素、柱状体)，并从目标格式中提取特征，从而在相应方向上受益于之前的研究成果。

Multi-view representation

MVCNN：

GVCNN

Volumetric representation

VoxNet

3D ShapeNet

OctNet

OCNN

Basis point set

BPS

基于点的方法：

与基于投影的方法从空间邻域中聚合点相比，基于点的方法尝试从单个点中学习特征。

MLP networks

Convolutional networks

Graph networks

图网络将点云视为图，将图的顶点视为点，并根据每个点的邻居生成边。特征将在空间或光谱领域学习

基于点云的分割

3D分割的目的是对每个点进行标记，这需要模型在每个点上收集全局上下文和详细的局部信息。。在三维图像分割中，主要有两个任务:语义分割和实例分割。

Semantic Segmentation

语义分割方法大致可分为基于投影的方法和基于点的方法

Projection-based methods

Huang和You将输入点云投射到占用体素中，然后将其送入3D卷积网络，生成体素级标签。

ScanComplete利用全卷积网络来适应不同的输入数据大小，并部署一个由粗到细的策略来提高预测的层次分辨率。

Point-based methods

Instance Segmentation

Proposal-based methods

可以看作是目标检测和掩模预测的结合。

Proposal-free methods

无提案的方法倾向于基于聚类等算法的语义分割来生成实例级标签。

无提案方法不受区域提案层计算复杂度的影响;然而，它们通常很难从聚类中产生区分对象边界

同时解决语义分割和实例分割的朴素方法有两种:(1)先解决语义分割，根据语义分割的结果在某些标签点上运行实例分割;(2)先解决实例分割，直接分配带有实例标签的语义标签。这两个阶梯式范式高度依赖于第一步的输出质量，不能充分利用两个任务之间的共享信息。

基于点云的目标检测

3D目标检测可以分为3类：multi-view method，projection-based method，point-based method

Projection-based methods

Point-based method

大多数基于点的方法都试图在特征提取过程中使信息损失最小化，是目前性能最好的一组方法。

与上述多视图方法相比，基于分割的方法对于复杂场景和遮挡对象有更好的效果。

点云数据的增强和完整化

由激光雷达收集的点云，特别是那些来自室外场景的点云，遭受不同种类的质量问题，如噪音，异常值，和遗漏点。所以我们的目标是补全缺失的点，移除掉异常的点。

Discriminative Methods

传统的方法包括局部表面拟合、邻域平均和猜测底层噪声模型

PointCleanNet提出了一种基于数据驱动的方法去消除错误点减少噪声

PCPNet首先对异常值进行分类并丢弃它们，然后估计一个将噪声投影到原始表面的修正投影

Total Denoising，在不需要额外数据的情况下实现了非监督降噪对点云数据

临界点层(CPL)在保留重要点的同时学会减少点的数量。这一层是确定性的，不确定顺序的，并且通过避免邻接搜索也很有效。

通过将采样后的点近似为原始点的混合来逼近点采样的可微松弛

Generative Methods

通过生成假样本，帮助定位网络的潜在缺陷。

point perturbation and point generation：扰动是通过对已有的点进行可忽略的移动来实现的，生成是通过添加一些独立分散的点或少量具有预定义形状的点簇来实现的。

除了对抗性生成，生成模型也用于点云上采样。向上采样点云通常有两种动机。一是减少数据的稀疏性和不规则性，二是恢复遮挡造成的缺失点

3D点云基础知识（下）