欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

阿里50亿参数AI描绘模型大受欢迎!分割图像重新自由重组,达摩院副院长带领团队制作量子比特,

2023-04-12 09:42:48 栏目 : 科技资讯大全 围观 : 0次

AI画画的通用模型,新大将追加!

阿里达摩院副院长周靖人等人制作的可控扩散模型Composer,一发表就火就小了。

该模型由50亿不同于Stable Diffusion原理的参数训练。

此外,将训练图像分解为多个元素,根据这些元素对扩散模型进行训练,使其能够灵活组合。

这使得模型的创造能力远大于仅基于图像的能力。

如果你有100张可以分割成8个元素的图片,你可以生成100个数的八次方结果组合。

网友们看到AI的绘画发展速度太快的声音!

团队称,模型训练和推理代码都在路上。

无限使用有限单元这个框架的核心思想是复合(compositionality),模型名被称为Compositionality。

虽然目前观察到很多AI绘图模型,但对细节的可控性还不够,比如精确改变颜色和形状等。

研究团队认为,要实现图像的可控生成,不应依赖于模型的调整,而应侧重于组合性,这种方法可以将图像创造力提高到指数级。

引用语言学大师诺姆·乔姆斯基的经典语录解释模型,如下。

具体地说,模型将每个训练图像分解为一系列基础元素,如蒙版、草稿和文字描述,用于训练扩散模型。

然后将这些分割后的元素在推理阶段灵活组合,生成大量的新图像输出。

可以支持多种形式的输入。例如,文字描述是全局信息,深度图和草图是局部指南,颜色直方图是低级细节。

在保证能够控制图像的生成的基础上,作为一个框架,该模型能够在没有重新训练的情况下完成大量的经典生成任务。

例如,在图(a)中,左端是原图,后面的四个是通过调整Composer的不同子集的表示而生成的新结果。

图(b)表示图像插补的结果。

图像重建是阿姨的东西,Composer可以简单地变更草稿图和分割图等图像显示来重建图像。

您还可以编辑图像的特定部分。

改变蛋糕派的味道,把戴着珍珠耳环的少女的脸变成梵高,让兔子露出熊猫的脸等。

你也可以挑战比较经典的图像生成任务,不需要重新训练。

团队表示,现有的成果还有局限性,比如单一条件输入的情况下,生成效果不是很好。另外,如果输入不同意义的图像或文本嵌入,则会生成结果,降低文本嵌入的权重。

另一方面,对于AI绘图模型必须面对的风险问题,团队表示为了避免滥用,他们会在发布模型之前创建过滤版本。

达摩院副院长带领团队完成了这项研究阿里和蚂蚁团队。

通信作者是周靖人。

他现在是阿里达摩院副院长,阿里云智能CTO,IEEEFellow。

2004年在哥伦比亚大学取得计算机博士学位,作为研究开发合作伙伴进入微软。

2015年,周靖人加入阿里巴巴集团,曾担任达摩院智能计算实验室、大数据智能计算平台、搜索推荐事业部等。

一篇论文的Huang Lianghua也来自达摩院,研究方向是扩大模型规模和数据,表示学习和内容生成。

论文地址:https://arxiv.org/abs/2302.09778

GitHub地址:https://github.com/damo-vilab/composer

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签