阿里50亿参数AI描绘模型大受欢迎！分割图像重新自由重组，达摩院副院长带领团队制作量子比特，

2023-04-12 09:42:48 栏目 : 科技资讯大全围观 : 0次

AI画画的通用模型，新大将追加！

阿里达摩院副院长周靖人等人制作的可控扩散模型Composer，一发表就火就小了。

该模型由50亿不同于Stable Diffusion原理的参数训练。

此外，将训练图像分解为多个元素，根据这些元素对扩散模型进行训练，使其能够灵活组合。

这使得模型的创造能力远大于仅基于图像的能力。

如果你有100张可以分割成8个元素的图片，你可以生成100个数的八次方结果组合。

网友们看到AI的绘画发展速度太快的声音！

团队称，模型训练和推理代码都在路上。

无限使用有限单元这个框架的核心思想是复合（compositionality），模型名被称为Compositionality。

虽然目前观察到很多AI绘图模型，但对细节的可控性还不够，比如精确改变颜色和形状等。

研究团队认为，要实现图像的可控生成，不应依赖于模型的调整，而应侧重于组合性，这种方法可以将图像创造力提高到指数级。

引用语言学大师诺姆·乔姆斯基的经典语录解释模型，如下。

具体地说，模型将每个训练图像分解为一系列基础元素，如蒙版、草稿和文字描述，用于训练扩散模型。

然后将这些分割后的元素在推理阶段灵活组合，生成大量的新图像输出。

可以支持多种形式的输入。例如，文字描述是全局信息，深度图和草图是局部指南，颜色直方图是低级细节。

在保证能够控制图像的生成的基础上，作为一个框架，该模型能够在没有重新训练的情况下完成大量的经典生成任务。

例如，在图（a）中，左端是原图，后面的四个是通过调整Composer的不同子集的表示而生成的新结果。

图（b）表示图像插补的结果。

图像重建是阿姨的东西，Composer可以简单地变更草稿图和分割图等图像显示来重建图像。

您还可以编辑图像的特定部分。

改变蛋糕派的味道，把戴着珍珠耳环的少女的脸变成梵高，让兔子露出熊猫的脸等。

你也可以挑战比较经典的图像生成任务，不需要重新训练。

团队表示，现有的成果还有局限性，比如单一条件输入的情况下，生成效果不是很好。另外，如果输入不同意义的图像或文本嵌入，则会生成结果，降低文本嵌入的权重。

另一方面，对于AI绘图模型必须面对的风险问题，团队表示为了避免滥用，他们会在发布模型之前创建过滤版本。

达摩院副院长带领团队完成了这项研究阿里和蚂蚁团队。

通信作者是周靖人。

他现在是阿里达摩院副院长，阿里云智能CTO，IEEEFellow。

2004年在哥伦比亚大学取得计算机博士学位，作为研究开发合作伙伴进入微软。

2015年，周靖人加入阿里巴巴集团，曾担任达摩院智能计算实验室、大数据智能计算平台、搜索推荐事业部等。

一篇论文的Huang Lianghua也来自达摩院，研究方向是扩大模型规模和数据，表示学习和内容生成。

论文地址：https：//arxiv.org/abs/2302.09778

GitHub地址：https：//github.com/damo-vilab/composer

展开剩余内容

分享到：

标签模型生成图像训练