自编码器AE、VAE、dVAE、VQ-VAE、VQ-VAE2

在多模态、生成模型中会用到几种类型的自编码器，通常具有Encoder、Decoder的结构。

参考链接：https://zhuanlan.zhihu.com/p/388620573

https://zhuanlan.zhihu.com/p/633744455

https://www.spaces.ac.cn/archives/6760

一、AE（AutoEncoder）

自编码器很简单，诞生也比较早，Encoder、Decoder的结构通常可以理解为数据压缩和降维，encoder把高维的输入空间X变换到低维的隐空间（latent space）Z中。decoder把低维的隐空间Z变换到原来的高维输入空间X中。

隐空间中的向量z 称为隐向量(latent vector)，隐向量z 可以看作输入向量x 的低维表示。这个 z 有 latent vector、embedding、code 这些叫法。

模型的训练目标使得重建的hat{x}和原输入x尽可能接近。损失函数采用重建损失（reconstruction loss），即hat{x}和x的交叉熵损失。

z=encoder(x) \\ \hat{x}=decoder(z)

这里盗一下图：

在MNIST数据集中，我们把信息压缩为二维的隐向量，表示出来如下图：

我们注意到AE在隐空间中不是每个点都和表现有对应，这些gap间隙中的隐向量并没有很好的重建效果，MNIST从训练好的隐空间gap间隙中取一些隐向量Z来重建，得到如下结果，重建结果并不好。

为了让学到的隐空间Z 连续、稠密，就有了VAE。

二、VAE（Variational AutoEncoder，可变分布自编码器）

VAE论文Auto-Encoder Variational Bayes，提出于2013年： https://arxiv.org/abs/1312.6114

在VAE中，encoder不再直接输入隐向量z，而是输出隐向量z的分布（均值mu和标准差sigma），再从这个分钟采样得到隐向量z。

AE将输入encode成隐空间的单个点，而VAE则将输入encode成隐空间的分布。

如果训练得到的分布大部分标准差sigma比较小，那么VAE就和普通AE差别不大了。我们希望学到的隐空间Z是连续、稠密、聚在一团而又能很好分靠不同标签的。于是为了避免sigma过小，就在损失函数中加入KL Loss。KL Loss 计算的是N(mu,sigma^2)和标准正态分布N(0,1)的KL散度。

三、VQ-VAE（Vector Quanized-Variational AutoEncoder）向量化的VAE

VQ-VAE来自论文 Neural Discrete Representation Learning（2017年），https://arxiv.org/abs/1711.00937，也是首个提出codebook机制的生成模型。

VAE学习到的是连续的隐空间缝补，而VQ-VAE想学到离散的隐空间。一个简化的VQ-VAE可以做如下表示：

在VQ-VAE中，输入向量经过encoder得到z_e, 然后在codebook，也就是VQ-VAE学习的离散隐空间中，寻找与z_e最为接近的隐向量e_i，将这个隐向量作为decoder。

z_e=encoder(x) \\ z_q=e_k, \\ \ \ \ (k=argmin_i||z_e-e_i||) \\ \hat{x}=decoder(z_q)

VQ-VAE的隐空间codebook中的隐向量是离散的，数量是固定的有限多的，而VAE中的隐空间中的隐向量是连续的，数量是无限多个的。

让有限数量的隐向量e_i来重建很多不同数据x是很困难的，因此，在VQ-VAE中的encoder会输出很多个向量z_e。论文中图示如下：

这里 encoder 是 CNN结构，输出 m1×m2 个 D维(D=隐向量的维度) 的 ze。这 m1×m2个向量分别在 codebook 中寻找与各自最接近的隐向量 ei ( ei 是D维的)，然后令对应的 eq=ei 。

例如在上图中，m1=6，m2=6，codebook 中有 K 个隐向量。第3行第3列的 ze 最接近的隐向量是 e3 ，于是令第3行第三列的 zq=e3 ；第5行第3列的 ze 最接近的隐向量是 e53 ，于是令第5行第3列的 zq=e53 。这 m1×m2 个 ze 可以有 K^(m1×m2) 个不同的组合，也就可以重建出 K^(m1×m2) 个不同的图像。

接下来我们考虑VQ-VAE的损失函数：loss = reconstruction loss + codebook loss + commitment loss.

reconstruction loss 就是x和hat{x}的交叉熵损失。

codebook loss，encoder输出ze和隐向量ei的平方损失。

commitment loss, encoder的输出ze与隐向量ei的平方损失。用于训练encoder。

在 VAE 中，希望隐向量满足正态分布(normal distribution)，所以损失函数有个 KL loss；在 VQ-VAE 中，隐向量满足均匀分布(uniform distribution)，所以隐向量的分布(1/K, 1/K, ……, 1/K) 与完美的隐向量的分布(0, ……, 0, 1, 0, ……, 0) 的 KL散度(计算如下) 是个常数(log K)，所以损失函数不需要加 KL loss。

用exponential moving average代替codebook loss，因为 codebook loss 只用于更新 codebook，所以可以不要 codebook loss，直接用指数滑动平均(exponential moving average) 来更新codebook。

TODO

四、dVAE

DALL-E对VQ-VAE的改进

TODO

一、AE（AutoEncoder）

二、VAE（Variational AutoEncoder，可变分布自编码器）

三、VQ-VAE（Vector Quanized-Variational AutoEncoder）向量化的VAE

四、dVAE

发表评论 取消回复

发表评论取消回复