Guangrun Wang (王广润)'s Homepage

论文题目： Diffusion Probabilistic Models for 3D Point Cloud Generation
论文地址：https://arxiv.org/pdf/2103.01458.pdf
代码地址：https://github.com/luost26/diffusion-point-cloud/tree/main

Diffusion Probabilistic Models（扩散概率模型）是一种生成模型。我们知道，最典型的生成模型是GAN，VAE和flow。扩散模型是一种新的生成模型。它在paper with code上，取得了很高的性能。被作者鼓吹是一种可以替代GAN的模型（注：我持怀疑态度。因为DPM模型太复杂了。且测试的时候需要迭代太多次，不优雅）。

扩散模型是什么意思呢？我们知道，东西在空气中，追随熵增大原理，会扩散变无序。例如，我们有一个椅子，如果放在空气中，长达数百年。这个椅子就会腐蚀成一个高斯噪声了。如果我们能学习到腐蚀的过程。那么，我们逆回去。就可以把一个高斯噪声变成一个椅子。这就是利用扩散模型进行点云（或图像）的生成过程。

和condition gan一样，这个文章也想用condition。它先对某个shape提了一个shape latent作为条件（注：这个条件是指类别条件还是点云条件？如果是前者，那么，例如我只需要提一个飞机类别，就可以生成一个飞机的点云。如果是后者，我需要输入一个飞机的点云，然后输出是这个输入的点云的一个风格变换后的点云。读完后文，我发现这个条件十分不优雅，甚至有点鸡生蛋和蛋生鸡的矛盾。）

相关文献
点云的生成。由于我重点想关注本文的方法而非点云生成本身。关于点云生成的参考文献我直接略过。

扩散概率模型。我前面已经讲了，扩散模型就是，如果我们有一个点云，我t0时刻是点云本身，t1时刻它扩散了一上，t2时刻进一步扩散。走到tn时刻变成高斯噪声。这整个过程可以看成是一个马尔科夫过程。我们只要逆回去，就可以用一个高斯噪声生成一个点云。本文评论到，现有的扩散模型多用于无条件生成，就随便用一个噪声，就可以生成一个目标。而本文首次做了condiction 扩散模型。（注：这就是是GAN到condiction GAN的改进吗？读完后文，我发现这个条件十分不优雅，甚至有点鸡生蛋和蛋生鸡的矛盾。）

方法
以下要讲述本文的方法了。在开始讲之前，请大家先了解一件事：王广聪博士曾经说过，大家在学习VAE之前，先不要看论文里面的formulation（或者VAE的formulation定义），而是先读训练和测试算法框图或者代码。这句话真是让我受用终身。原因是什么呢？就是VAE的数学formulation太优雅了，以至于你读算法或才代码的时候会发现，定义中的formulation和真正的实现根本就是两个东西。如果只看算法，就会发现VAE是一个无比庸俗简单的东西，却被formulate成高深莫测的东西。并且，formuation之后还会多一段话，说"To make the training simpler and more efficient, following [11], instead of evaluating the expectation of the whole summation over all the time steps in Eq. (9), we balabalabala...”，后面就开始说真正的实现和formulation不一致的地方。我有时候对这种过度formulation不太喜欢。而扩散模型正是和VAE一样，存在过度formulation现象。

本文的扩散模型是一个条件扩散模型（注：这个条件用的不是很优雅）。首先请看下面的示意：

(x_T, x_0 -> z) -> … -> (x_t, z) -> (x_{t-1}, z) -> … -> x_0

(x_0, z -> x_0) -> … -> (x_{t-1}, z) -> (x_t, z) -> … -> (x_T, z)

为了利于理解，先讲inference阶段。在此阶段，我们输入的是一个高斯噪声x_T+一个条件z。这里有点不太合理的是，我们需要先将一个图输入到encode中得到这个条件z。这就好比说，为了生成飞机的点云。我们先要将一个飞机点云x_0输入到一个encode中，得到条件z。然后这个z和x_T一块，迭代T次，最终生成飞机的点云x_0。这就有一个鸡生蛋和蛋生鸡的矛盾了。如果我事先有一个飞机的点云了，我还要再生一个做什么？当然，这是符合条件生成器的定义的。有时候我们输入一个低分辨率的点云，想生成一个高分辨率的点云。或者我们需要做image-to-image tranlation或者风格转换。输入高斯噪声x_T+条件z，我们输入一个net中，预测一个e_theta，然后用这个e_theta采样（相乘），得到x_{T-1}（注：见代码e_theta = self. net(x_t, beta=beta, context=context)； x_next = c0 * (x_t - c1 * e_theta) + sigma * z）。然后反复迭代，得到x_{t}, 继续得到x_{t-1},最终得到x_0，这就是我们的输出。具体参见此行代码：https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/models/diffusion.py#L137

接下来向大家介绍训练阶段。在训练阶段，我们也是先用x_0输入encoder得到z，然后用x_0采样噪声（即扩散）得到x_1，x_1得到x_1，如此，最终得到x_T，即x_0 -> x_1 -> x_2 -> x_3 … -> x_T（注：在本文的训练代码中，实现并非迭代采样。只x_0可直接采样x_t。只要得到一个恰当的采样就可以一步到位。因为高斯采样有叠加性质）。但是，在训练的时候，需要保证测试的时候扩散能逆回去。即保证：x_T -> x_{T-1} -> … -> x_2 -> x_1。由于 e_theta = self. net(x_t, beta=beta, context=context)； x_next = c0 * (x_t - c1 * e_theta) + sigma * z）。我们只需要保证e_theta为标准高斯分布即可。因此，训练时，随机采样一个时间 t \in [0, T]，使得e_theta = self. net(x_t, beta=beta, context=z) 与标准高斯分布的mse loss最小化。这就是训练过程。具体参见此行代码：https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/models/diffusion.py#L118。至于说，为什么e_theta = self. net(x_t, beta=beta, context=z) 与标准高斯分布的mse loss最小化可以保证可逆，这也许是DDPM的性质之一。这就好比为什么kld loss能使VAE的code落在N（0，1）分布一样。

对于Test VAE来说，还是需要输入一个点云，才能生成一个点云的（注：即所谓的条件生成器）。请见：https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/test_ae.py#L61

所以，对于本文的方法来说，实在是一个包装。要从噪声来生成一个点云，本文的扩散模型根本做不到。为了生成点去，它需要借助于传统的VAE模型（或者说需要借助kld loss）或Flow模型（或者说flow的loss）。请参见：
对VAE的需要见：https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/train_gen.py#L104 和https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/models/vae_gaussian.py#L39；
对Flow的需要见：https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/train_gen.py#L106和https://github.com/luost26/diffusion-point-cloud/blob/cde2e501855dea31496ddffad16f40aa588e3af8/models/vae_flow.py#L52。

综上。本文虽然提出来用扩散概率模型来生成点云。实际上生不出来。它需要加VAE的kld loss或者Flow模型某些loss。与VAE不同之处在于，VAE的decoder是仅访问一次decoding net一次的，在DDPM变成一个多次迭代访问一个net了。

-----------------------------------

大家好，我来自fast lab。我开始不定时公开写作。这些写作主要通过两个渠道公布：一是FAST LAB官方网站；一是印象识堂（微信可访问）。欢迎大家订阅。谢谢！

FAST Lab的官方网址为：https://wanggrun.github.io/projects/fast

除此外，还可以关注我的小伙伴王广润：https://wanggrun.github.io/

王广聪： https://wanggcong.github.io/

石阳：https://www.linkedin.com/in/%E9%98%B3-%E7%9F%B3-381b521a4/

有时候这些网站打不开，请耐心多点几次。

多谢大家关注。

返回博客目录Return to all Blogs
返回主页Return to homepage

3D Point Could Generation Based on Denoising Diffusion Probabilistic Models基于扩散概率模型(一种与GAN平行)的3D点云的生成

3D Point Could Generation Based on Denoising Diffusion Probabilistic Models
基于扩散概率模型(一种与GAN平行)的3D点云的生成