Transformer又来搞事情百万像素高清图轻松合成效果很好

发布时间：2021-12-11 02:29:38 所属栏目：动态来源：互联网

导读：你上一次听到用Transformer生成图像，应该还是iGPT刚问世的时候吧？当时OpenAI用GPT-2来分类和补全图像，取得了令人惊艳的成果。遗憾在于，iGPT生成的图像最大只有64x64像素。图片现在，我要告诉你，最上面这张图像也是Transformer生成的，分辨率有1280x4

你上一次听到用Transformer生成图像，应该还是iGPT刚问世的时候吧？当时OpenAI用GPT-2来分类和补全图像，取得了令人惊艳的成果。遗憾在于，iGPT生成的图像最大只有64x64像素。

图片
现在，我要告诉你，最上面这张图像也是Transformer生成的，分辨率有1280x460之高。合成这张图像的模型名叫VQGAN，而且，它能做的事情远不止于此。

先看看VQGAN和iGPT的对比，前者生成的图像明显高清得多。

说了那么多，它们的共同点是啥？

当然是高清啦！

最后再展示一些用语义图引导合成的样本，从上往下的分辨率分别是：1280×832、1024×416、1280×240。

没错，都是百万像素级别的。

VQGAN功能多，生成的图像又高清，就用下图来总结一下。

本文提出的Transformers统一了广泛的图像合成任务。图中展示了在不同条件输入和数据集上的256×256合成结果，所有这些结果都是用同样的方法获得的，即VQGAN——利用基于CNN的有效归纳偏置，并结合Transformer结构的表达能力。

第一行：在ImageNet上进行无条件训练来补全图像。

第二行：以深度图为条件生成图像。

第三行：语义图引导合成。

第四行：姿态图引导合成。

第五行：类别引导合成。

然后，我们来比较一下模型尺寸。iGPT提出了四个模型，即iGPT-S、iGPT-M、iGPT-L、iGPT-XL，参数数量分别为76M、455M、14 亿、68亿，而VQGAN的参数数量则在85M到470M之间。

如下表所示，作者在多个数据集上（比如CIFAR-10、DeepFashion等）训练了不同大小的模型，表中列出了模型的超参数。

超参数列表

参数数量远低于iGPT，生成的图像分辨率又远高于iGPT，VQGAN是怎么做到的？我们先从Transformer的发展历史谈起。

Transformer：从NLP走向CV

Transformer最初应用于自然语言处理（NLP）任务，并带来了显着的进步。

例如，“Attention is all you need”首先提出了仅基于注意力机制的用于机器翻译和英语选区解析任务的Transformer。

BERT通过共同在左和右上下文进行条件预处理，以通过未标记文本训练Transformer，BERT在当时的11个NLP任务上获得了SOTA。

OpenAI在45TB数据上预训练了基于巨型Transformer的GPT-3模型，该模型具有1,750亿个参数，并且无需微调即可在各种类型的下游自然语言任务上实现出色的性能。

这些基于Transformer的模型都显示了强大的表示能力。受此启发，最近人们开始将Transformer扩展到计算机视觉（CV）任务。

CNN曾经是计算机视觉网络架构的基本组成部分，但Transformer显示出了替代CNN的潜力。

iGPT训练序列Transformer来自回归地预测像素，并在图像分类任务上与CNN取得相近结果。

ViT将纯Transformer直接应用于图像补丁序列，并在多个图像识别基准上获得了SOTA。

除了基本的图像分类，Transformer还被用于解决更多的计算机视觉问题，例如目标检测、语义分割、图像处理和视频理解，并且都得到了出色的结果。

基于Transformer的视觉模型如雨后春笋般冒起，下表按照应用场景对视觉Transformer模型进行了分类。

视觉Transformer的代表性工作。

其中主要的研究主题包括基本图像分类、高级视觉、低级视觉和视频处理。

高级视觉处理是指对图像关键内容的标记，例如目标检测、语义分割和车道检测。

人们已经提出了许多用于解决高级视觉任务的Transformer模型，例如DETR、deformable DETR用于目标检测，以及Max-DeepLab用于语义分割。

低级图像处理的典型应用包括超分辨率、图像去噪和风格迁移。在这个领域很少使用到Transformer，不过近期华为诺亚、北大等在论文“Pre-Trained Image Processing Transformer”中提出了IPT模型，在降噪、去雨、超分等底层视觉任务上刷榜，再次刷新人们认知。

此外，由于视频的顺序特性，Transformer可以自然地应用于视频。

与传统的CNN或RNN相比，Transformer开始在这些任务上显示出具有竞争力的性能。

下图展示了视觉Transformer关键工作的时间表，相信未来会有越来越多的优秀工作将被刻在里程碑上。

Transformer的里程碑，视觉Transformer模型为红色。

那么，Transformer能取代CNN的秘密在哪里呢？

不一定要完全替代CNN

CNN由于可以搭配GPU进行有效的并行卷积计算而获得了无数成功。此外，CNN也具有平移不变性和局部敏感性的归纳偏置。但是，后者也决定了卷积神经网络只能关注局部信息的网络结构。

它的这种计算机制导致了它在文本信息处理上难以捕捉和存储长距离的依赖信息，也就是缺乏对数据本身的整体把握。人们一方面想扩大卷积核、增加通道数来捕捉长期依赖，一方面还害怕由于扩大模型所导致的维度灾难。

相比之下，Transformer背后的Self Attention除了兼具并行计算的优点，还能挖掘长距离依赖，不受优先考虑局部相互作用的归纳偏置的限制，从而具有很强的表达性。此外，由于不存在这种限制，自注意力机制还能根据任务目标和自注意力层的位置来学习最合适的归纳偏置。

在“ON THE RELATIONSHIP BETWEEN SELF-ATTENTION AND CONVOLUTIONAL LAYERS”这篇发表在ICLR 2020的论文中，作者提出了理论和经验证据，表明自注意力层可以（并且确实）像卷积层那样起作用：

从理论上讲，存在建设性的证据，表明自注意力层可以表示任何卷积层。具体来说，使用相对位置编码的单个多头自注意力层可以重新参数化以表示任何卷积层。

（编辑：南平站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

米家全能扫拖机器人正	零下30℃开启中国中车
配V12发动机法拉利首	腾势汽车高端 MPV 官方

Transformer又来搞事情 百万像素高清图轻松合成 效果很好

Transformer又来搞事情百万像素高清图轻松合成效果很好