阿里50亿参数AI描绘模型大受欢迎!分割图像重新自由重组,达摩院副院长带领团队制作量子比特,
AI画画的通用模型,新大将追加!
阿里达摩院副院长周靖人等人制作的可控扩散模型Composer,一发表就火就小了。
该模型由50亿不同于Stable Diffusion原理的参数训练。
此外,将训练图像分解为多个元素,根据这些元素对扩散模型进行训练,使其能够灵活组合。
这使得模型的创造能力远大于仅基于图像的能力。
如果你有100张可以分割成8个元素的图片,你可以生成100个数的八次方结果组合。
无限使用有限单元这个框架的核心思想是复合(compositionality),模型名被称为Compositionality。
虽然目前观察到很多AI绘图模型,但对细节的可控性还不够,比如精确改变颜色和形状等。
研究团队认为,要实现图像的可控生成,不应依赖于模型的调整,而应侧重于组合性,这种方法可以将图像创造力提高到指数级。
引用语言学大师诺姆·乔姆斯基的经典语录解释模型,如下。
具体地说,模型将每个训练图像分解为一系列基础元素,如蒙版、草稿和文字描述,用于训练扩散模型。
然后将这些分割后的元素在推理阶段灵活组合,生成大量的新图像输出。
可以支持多种形式的输入。例如,文字描述是全局信息,深度图和草图是局部指南,颜色直方图是低级细节。
在保证能够控制图像的生成的基础上,作为一个框架,该模型能够在没有重新训练的情况下完成大量的经典生成任务。
例如,在图(a)中,左端是原图,后面的四个是通过调整Composer的不同子集的表示而生成的新结果。
图(b)表示图像插补的结果。
图像重建是阿姨的东西,Composer可以简单地变更草稿图和分割图等图像显示来重建图像。
您还可以编辑图像的特定部分。
改变蛋糕派的味道,把戴着珍珠耳环的少女的脸变成梵高,让兔子露出熊猫的脸等。
你也可以挑战比较经典的图像生成任务,不需要重新训练。
团队表示,现有的成果还有局限性,比如单一条件输入的情况下,生成效果不是很好。另外,如果输入不同意义的图像或文本嵌入,则会生成结果,降低文本嵌入的权重。
另一方面,对于AI绘图模型必须面对的风险问题,团队表示为了避免滥用,他们会在发布模型之前创建过滤版本。
达摩院副院长带领团队完成了这项研究阿里和蚂蚁团队。
通信作者是周靖人。
他现在是阿里达摩院副院长,阿里云智能CTO,IEEEFellow。
2004年在哥伦比亚大学取得计算机博士学位,作为研究开发合作伙伴进入微软。
2015年,周靖人加入阿里巴巴集团,曾担任达摩院智能计算实验室、大数据智能计算平台、搜索推荐事业部等。
一篇论文的Huang Lianghua也来自达摩院,研究方向是扩大模型规模和数据,表示学习和内容生成。
论文地址:https://arxiv.org/abs/2302.09778
GitHub地址:https://github.com/damo-vilab/composer