2024 年 – 第 3 页

反卷积的一些论文

2024-01-28 作者 PengChao

此反卷积并非神经网络中的deconvolution结构，而更是类似于inverse convolution，类 … 阅读更多

自编码器AE、VAE、dVAE、VQ-VAE、VQ-VAE2

2024-02-122024-01-28 作者 PengChao

在多模态、生成模型中会用到几种类型的自编码器，通常具有Encoder、Decoder的结构。

DALL-E论文笔记

2024-01-272024-01-21 作者 PengChao

DALL-E是OpenAI的多模态与训练模型，有120亿参数，在2.5亿图像文本对上寻来呢完成，主要用于文生图后续有DALL-E2和DALL-E3，其中DALL-E和DALL-E2是可以找到源代码和权重的，后面的DALL-E3是闭源的。学习原理的话我们从DALL-E入手。

从GPT开始，zero-shot的想法开始成为自然语言处理的主流，而视觉领域能否zero-shot呢（训练一个大模型，后续使用不需要微调）？CLIP和DALL-E告诉我们视觉也可以zero-shot，所以文章的Tile是Zero-Shot Image Generation，DALL-E的名字灵感来自于著名画家Salvador Dali和墨西哥的墙Wall-E。

CLIP（Contrastive Language-Image Pre-training），OpenAI给的title：Connecting text and images，被用作文本监督信号来训练可迁移的视觉模型。CLIP是一种基于对比学习的多模态模型，训练数据是文本-图像对（一张图像和其对应的文本描述），模型能够学习到文本-图像对的匹配关系。以下内容搜集自论文、知乎、OpenAI Blog Page （一手资料参阅以下链接的openai blog）