RL-GAN-Net：强化学习主体控制的GA无轨爱N网络实时点云补全--湖北信息网

泡泡图灵智库，带你精读机器人顶级会议文章

标题：RL-GAN-Net：A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion

作者：Muhammad Sarmad,Hyunjoo Jenny Lee,Young Min Kim

来源：CVPR 2019

播音员：

编译：李雨昊

审核：万应才

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——RL-GAN-Net：A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion

本文提出RL-GAN-NET，使用强化学习主体为对抗生成网络提供快速稳健的控制信息。本文的框架可以应用到点云形状补全任务中，即通过控制GAN网络将包含噪声的部分点云数据转换成高保真性的完整形状点云。由于GAN网络不稳定而且很难训练，因此作者对原始点云进行降维处理，进而转换到隐空间进行GAN网络的训练；并且使用强化学习主体为GAN网络寻找一个正确的输入向量，使得GAN网络能够产生最佳拟合输入残缺点云形状的隐式表达。本文提出的流程能够在点云缺少大量区域的情况下仍然能够实现点云补全。就目前而言，本文是第一个尝试训练强化学习主体控制GAN网络学习噪声向量与点云隐空间高维非线性映射关系的网络架构。强化学习主体代替了传统基于复杂优化方法选择GAN网络输入向量的方法，从而实现了实时的GAN网络输入向量选择过程。而且，作者演示了基于本文网络架构实现残缺点云分类的进一步实际应用结果。

主要贡献

1.提出一种形状补全网络，可以在无需依赖视觉形状或噪声分布特性等先验信息下完成形状补全任务；

2.提出了基于强化学习的实时GAN网络控制方法，可以在不经过复杂优化的情况下生成想要的输出结果。

算法流程

图1 本文形状补全网络的前向传播过程，通过观察经过编码的部分点云，RL-GAN-NET为隐GAN网络选择一个合适的输入向量，并生成一个干净的形状编码，人造的隐式表达经过解码实时得到完整的点云数据，本文的混合框架中，鉴别器最终选择一个合适的形状作为输出数据。

本文的形状补全流程包含三个部分：自编码器Autoencoder，隐空间对抗生成网络以及强化学习主体。每个部分都是神经网络并进行分别训练。训练好的自编码器将噪声和部分点云数据编码成带噪声的全局特征向量GFV，基于该带噪声的GFV，本文的强化学习主体为隐式GAN网络选择一个合适的种子向量，GAN网络的生成器得到干净的GFV，再通过自编码器的解码器输出完整的点云。GAN网络的鉴别器观察生成器产生的GFV和自编码器的解码器生成的GFV，并选择一个更加可信的形状作为输出结果。

3.1 自编码器

自编码器可以对输入数据进行降维，将原始点云表达为一个低维度的向量。本文中将解码器得到的中间表达向量称为GFV(global feature vector)全局特征向量。自编码器AE的训练是反向传播方式训练的，目的为减少出入残缺点云和生成完整点云之间的Chamfer距离，如式1：

作者在Achlioptas et al提出网络的基础上训练AE，Achlioptas et al表明AE可以用于点云形状补全，但是补全效果会在点云缺失程度增加时急剧下降。本文采用的AE网络结构如图2所示，输入输出均为2018维的三维点云数据。

图2 自编码器示意图

3.2 l-GAN

GAN网络可以产生从未见过的逼真图片，但是GAN网络的训练过程十分难，训练不稳定还会遇到模型坍塌的问题。Achlioptas et al 表明在GFV基础上训练GAN网络会比直接在点云上训练GAN网络稳定。因此，本文采用了相同的训练方式。Gurumurthy et al使用了l-GAN网络用于形状补全，他们定义了优化框架，来寻找生成网络的最佳输入z向量以产生可以最佳诠释输入残缺点云的GFV全局特征向量。但是输入点云数据和GFV之间的映射关系是高度非线性的，因此，优化过程不能简单的写成是反向传播的过程。他们的优化函数由三个损失项构成。Pin代表输入的残缺点云数据，E，E-1代表AE的编码器和解码器，G,D分别为l-GAN网络的生成器和鉴别器。

损失项1-Chamfer 距离：输入残缺点云和解码生成的完整点云E-1(G(z))之间的Chamfer距离，如式2：

损失项2，GFV损失：GAN生成的GFV(G(z))于输入点云经过AE编码器得到的GFV(E(Pin))之间的2范数,如式3：

损失项3，鉴别器损失：鉴别器的输出结果，如式4：

图3 GAN网络架构示意图

作者选择GAN网络的输入z向量维度为1维，生成器得到的GFV为128维的向量，并借鉴了self-attention GAN的架构。

3.3 强化学习

在典型的基于强化学习的框架中，agent在环境中活动。给定在某时刻t的观测xt，agent给出一个动作at，并得到一个回报rt。Agent网络学习一种策略，将状态与动作以某种概率关联起来。环境可以看作是一个马尔科夫决策过程，即当前状态和动作仅取决于之前的状态和动作，在任何给定状态下的回报都是未来回报经过打折后的回报。最终的目标是找到可以获得最大回报的策略。

图4 基于强化学习的点云补全流程图

针对本文的目的，强化学习中的环境在这里指AE和l-GAN,观察到的状态st以残缺点云编码而成的带噪声的GFV作为初始值，agent产生一个动作at为生成器选择z空间的一个种子向量作为输入向量，人造的GFV通过解码得到完整的点云形状。训练强化学习agent的一个主要任务是建立正确的回报函数。环境根据产生动作的质量给出一个回报r。在RL-GAN-Net中正确的动作等价于为生成器选择一个正确的输入种子向量。作者结合与形状补全任务相关的损失函数设计了回报函数，如式5：

WCH,WGFV,WD分别为对应的权重。

因为动作空间是连续的，因此采用Lillicrap et al提出的DDPG(deep deterministic policy gradient) 策略。在DDPG策略中，参数化的actor网络μ(s|θμ)学习特定的策略，以可区分的策略建立状态与特定动作之间的映射关系，critic网络Q(s,a)使用Bellman等式并提供动作和状态之间的关系质量评估。actor网络通过寻找代价J的梯度即回报的期望进行训练，也就是policy gradient，定义式如式6：

图5 强化习结构示意图

基本强化学习框架如图5所示，作者使用的强化学习架构是actor-critic架构，actor & critic网络均为全连接层，actor网络为4个全连接层的形式，输入为128维的GFV，输出为1维z向量。critic网络为4个全连接层的形式(和actor不同)。

Agent的训练细节如算法1。本文中分为两部分：1、经验的收集；2、训练actor & critic 网络。在第一阶段中，图4中表明回放缓冲区R是使用有用的经验连续填充的，缓冲区中一次添加一个输入。本文背景下，任务是不同时相段组成的，因此每个时段得到一个回报，时段的数量等于迭代的次数，每个时段中，agent在时段终止后采取一个简单的动作。对应的状态，动作，回报组成一组存储在缓冲区中。

第二部分，采用DDPG方法训练actor & critic 网络，训练时的batchsize是100，每5000次迭代评估一次策略。DDPG的超参数如表4所示。

3.4 混合RL-GAN-Net

当点云缺失数量比较少的时候，AE可以得到与输入点云数据符合很好的点云，但是当点云大量缺失的时候，本文的方法可以获得较好的语义形状，因此作者把鉴别器当作一个开关在AE得到的补全点云和RL-GAN-Net得到的点云之间进行选择，输出最佳的形状补全点云。

主要结果

作者使用ShapeNetCore数据集中数量较多的四类，汽车、飞机、椅子、桌子进行实验，形状有26829类。点云真值为在每个形状上均匀采样的2048个点。残缺点云数通过在完整点云上随机选择一个点，去掉一定半径内的点云的方式制作的，通过控制半径的大小生成不同残缺比例的点云数据残缺比例为20%,30%,40%,50%,70%。

1、形状补全结果

在点云空间中，作者仅和AE形状补全结果进行了对比。

图6 性能分析

图6a显示不同方法补全的点云和真实点云之间的Chamfer距离结果对比。AE和RL-GAN-Net的Chamfer距离是相似的，这种现象可以解释为：1）AE是专门设计用来减少Chamfer距离的，因此在某些损失角度表现很好，而RL-GAN-Net综合考虑了Chamfer损失、隐空间以及鉴别器损失；2）Pin点云已经和点云真值进行精确对齐，因此会弥补由于缺失区域造成的误差。

在体素格网空间，作者与Dai et al的方法进行了对比。Dai et al使用32x32x32大小的体素通过AE网络，再通过128x128x128分辨率的体素完成基于块的点云补全。图7所示为两者方法之间的结果对比。这种基于体素的方法受限于分辨率且损失一定的局部细节，还使用了额外的掩膜信息。但是本文的方法还可以保留一些语义对称性，在某些具有挑战性的情况下仍能得到很好的效果。

2、分类结果应用

图6b表达了点云分类的精度提升，从中可以看出，由于补全了点云，本文的方法可以弥补现有网络的精度损失。点云分类网络结构如图18。

3、回报函数分析

作者演示了三种不同损失项的影响。图6c显示了对不同残缺点云数量进行补全时损失值的变化。当缺失数据较大时，Chamfer损失和GFV损失均会大增。鉴别器损失的增量式最平稳的。

图 8 回报函数分析

作者测试了不同损失项组合时回报函数的变化，Chamfer损失在独自使用时效果不佳，但是和GFV损失结合在一起的时候，效果就很好。鉴别器损失确保了补全的形状在语义上是正确的。回报函数不同组合分析结果如图8。

Abstract

We present RL-GAN-Net, where a reinforcement learning (RL) agent provides fast and robust control of a generative adversarial network (GAN). Our framework is applied to point cloud shape completion that converts noisy, partial point cloud data into a high-fidelity completed shape by controlling the GAN. While a GAN is unstable and hard to train, we circumvent the problem by (1) training the GAN on the latent space representation whose dimension is reduced compared to the raw point cloud input and (2) using an RL agent to find the correct input to the GAN to generate the latent space representation of the shape that bestfits the current input of incomplete point cloud. The suggested pipeline robustly completes point cloud with large missing regions. To the best of our knowledge, this is the first attempt to train an RL agent to control the GAN, which effectively learns the highly nonlinear mapping from the input noise of the GAN to the latent space of point cloud. The RL agent replaces the need for complex optimization and consequently makes our technique real time. Additionally, we demonstrate that our pipelines can be used to enhance the classification accuracy of point cloud with missing data.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

RL-GAN-Net：强化学习主体控制的GA无轨爱N网络实时点云补全

相关推荐

RL-GAN-Net：强化学习主体控制的GA无轨爱N网络实时点云补全