英伟达超高速StyleGAN回归,比Stable Diffusion快30倍以上,网友:GAN似乎只剩下快-量子比特,
扩散模型的画像生成支配地位,终于GAN被夺回吗?
在大家迎新年之际,英伟达科学家们悄悄升级了StyleGAN系列,换成PLUS版的StyleGAN-T,一下子在网上火了起来。
在同等的计算力下,扩散模型的Stable Diffusion生成一张图像需要3秒,Imagen需要近10秒。
很多网友的第一反应是
很快谷歌脑研究科学家DreamFusion的第一作者Ben Poole赶到,将StyleGAN-T与扩散模型进行了比较:
但是,他同时在256×256图像生成上,还是扩散模型的天下。
所以新版StyleGAN的生成质量是怎样的,它到底在哪个领域重新具备竞争力。
StyleGAN-T长什么样。与扩散模型和自回归模型的多次迭代生成样本相比,GAN的最大优点是速度。
因此,StyleGAN-T这次也将重点放在了大规模的文本图像合成上,作为在短时间内从文本生成大量图像的方法。
StyleGAN-T是基于StyleGAN-XL的改进。
其总体架构包括:。
具体而言,作者重新设计了生成器、鉴别器和文本对齐折衷机制,使用FID对样本质量进行量化评估,并使用CLIP对文本进行对齐。
在生成器中,作者放弃了StyleGAN3中可实现平移同构(equivariance)的架构,采用了StyleGAN2的部分设计,包括输入空间噪声和跳层连接等,提高了细节随机变化的多样性。
在鉴别器上,作者也进行了新的设计,采用了自我监督学习训练ViT-S。
然后,作者采用特殊的截断方法来控制图像生成的效果,同时考虑所生成的内容的多样性。
仅需要控制参数ψ,能够确保CLIP得分(为了评价图像生成效果)的变动少,能够改善图像生成的样式多样性。
随后,作者们在64个英伟达A100训练了4周,最终得到了这个StyleGAN-T。
那么,它的生成效果如何呢。
产生超高速低分辨率图像的作者评估了目前最好的几种GAN、扩散模型和自回归模型。
在微软的MS COCO数据集中,StyleGAN-T为64×64分辨率最高的FID。
(其中,FID是计算实际图像与生成图像特征矢量的距离的评价用值,数值越低,表示生成的效果越接近实际图像)
但是,更高的256×在256分辨率生成中,StyleGAN-T不优于扩散模型,但生成效果优于使用相同GAN的LAFITE:
另外,将生成时间和FID分别作为纵轴和横轴,放入同一张图进行比较,可以更直观地比较生成质量和速度。
StyleGANT可以以10FPS的速度生成256×256分辨率图像,FID值近似于LDM和GLIDE等扩散模型:
另外,在文本生成图像功能中,作者也从文本特征、风格控制等方面对模型进行了测试。
添加或更改特定形容词后,生成的图像将按照说明进行。
即使是快速生成的图像,也可以快速控制“梵高风的画”或“动画”等样式。
当然,也有生成需要字母的图像时不显示普通字母的失败例子。
作者们正在努力整理代码,表示即将开源。
作者介绍了作者们来自“图宾根大学”和“英伟达”。
一作Axel Sauer,图宾根大学博士生,至今为止在卡尔斯鲁尔理工学院(KIT)取得了硕士学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。
二作Tero Karras,英伟达杰出的研究科学家,英伟达对RTX技术有重要贡献,也是StyleGAN系列的主要作者,主要研究方向是计算机图形学和实时渲染。
但是,在这场癌症掀起的“文艺复兴”浪潮下,也有人说:“StyleGAN时代迎来了终结。”。
有网友感慨:
你认为GAN能动摇扩散模型的统治地位吗。
论文地址:https://arxiv.org/abs/2301.09515
项目地址:https://github.com/autonomousvision/stylegan-t