英伟达超高速StyleGAN回归，比Stable Diffusion快30倍以上，网友：GAN似乎只剩下快-量子比特，

2023-04-11 09:28:13 栏目 : 科技资讯大全围观 : 0次

扩散模型的画像生成支配地位，终于GAN被夺回吗？

在大家迎新年之际，英伟达科学家们悄悄升级了StyleGAN系列，换成PLUS版的StyleGAN-T，一下子在网上火了起来。

无论星云爆发中柯基的生成如何：

还是基于梦幻引擎样式渲染的森林：

都能在接近0.1秒的时间内生成！

在同等的计算力下，扩散模型的Stable Diffusion生成一张图像需要3秒，Imagen需要近10秒。

很多网友的第一反应是

很快谷歌脑研究科学家DreamFusion的第一作者Ben Poole赶到，将StyleGAN-T与扩散模型进行了比较：

但是，他同时在256×256图像生成上，还是扩散模型的天下。

所以新版StyleGAN的生成质量是怎样的，它到底在哪个领域重新具备竞争力。

StyleGAN-T长什么样。与扩散模型和自回归模型的多次迭代生成样本相比，GAN的最大优点是速度。

因此，StyleGAN-T这次也将重点放在了大规模的文本图像合成上，作为在短时间内从文本生成大量图像的方法。

StyleGAN-T是基于StyleGAN-XL的改进。

其总体架构包括：。

具体而言，作者重新设计了生成器、鉴别器和文本对齐折衷机制，使用FID对样本质量进行量化评估，并使用CLIP对文本进行对齐。

在生成器中，作者放弃了StyleGAN3中可实现平移同构（equivariance）的架构，采用了StyleGAN2的部分设计，包括输入空间噪声和跳层连接等，提高了细节随机变化的多样性。

在鉴别器上，作者也进行了新的设计，采用了自我监督学习训练ViT-S。

然后，作者采用特殊的截断方法来控制图像生成的效果，同时考虑所生成的内容的多样性。

仅需要控制参数ψ，能够确保CLIP得分（为了评价图像生成效果）的变动少，能够改善图像生成的样式多样性。

随后，作者们在64个英伟达A100训练了4周，最终得到了这个StyleGAN-T。

那么，它的生成效果如何呢。

产生超高速低分辨率图像的作者评估了目前最好的几种GAN、扩散模型和自回归模型。

在微软的MS COCO数据集中，StyleGAN-T为64×64分辨率最高的FID。

（其中，FID是计算实际图像与生成图像特征矢量的距离的评价用值，数值越低，表示生成的效果越接近实际图像）

但是，更高的256×在256分辨率生成中，StyleGAN-T不优于扩散模型，但生成效果优于使用相同GAN的LAFITE：

另外，将生成时间和FID分别作为纵轴和横轴，放入同一张图进行比较，可以更直观地比较生成质量和速度。

StyleGANT可以以10FPS的速度生成256×256分辨率图像，FID值近似于LDM和GLIDE等扩散模型：

另外，在文本生成图像功能中，作者也从文本特征、风格控制等方面对模型进行了测试。

添加或更改特定形容词后，生成的图像将按照说明进行。

即使是快速生成的图像，也可以快速控制“梵高风的画”或“动画”等样式。

当然，也有生成需要字母的图像时不显示普通字母的失败例子。

作者们正在努力整理代码，表示即将开源。

作者介绍了作者们来自“图宾根大学”和“英伟达”。

一作Axel Sauer，图宾根大学博士生，至今为止在卡尔斯鲁尔理工学院（KIT）取得了硕士学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

二作Tero Karras，英伟达杰出的研究科学家，英伟达对RTX技术有重要贡献，也是StyleGAN系列的主要作者，主要研究方向是计算机图形学和实时渲染。

但是，在这场癌症掀起的“文艺复兴”浪潮下，也有人说：“StyleGAN时代迎来了终结。”。

有网友感慨：

你认为GAN能动摇扩散模型的统治地位吗。

论文地址：https：//arxiv.org/abs/2301.09515

项目地址：https：//github.com/autonomousvision/stylegan-t

展开剩余内容

分享到：

标签图像生成

上一篇：AR隐形眼镜来了，手机价格，人体佩戴测试正式开始-量子比特，下一篇：一个GPU+多行代码，大型号培训加快40%！无缝支持HuggingFace，来自国产开源项目-量子比特，

英伟达超高速StyleGAN回归，比Stable Diffusion快30倍以上，网友：GAN似乎只剩下快-量子比特，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光网友直呼看不懂急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

英伟达超高速StyleGAN回归，比Stable Diffusion快30倍以上，网友：GAN似乎只剩下快-量子比特，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光 网友直呼看不懂 急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备 没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

realme预热海报曝光网友直呼看不懂急需大侦探解密

减负必备没有这些AI功能都不好意叫智能手机