谷歌用新AI超越自己：让Imagen能够指定生成对象，风格还能随意转换-东方时间网

给Imagen加上命中你所指的地方的能力会变得多强只需上传3—5张指定物体的照片，然后用文字描述出你想要生成的背景，动作或表情，指定物体就能闪进你想要的场景，动作表情都栩栩如生

不仅是动物，其他物品如太阳镜，书包和花瓶也可以制成几乎是真正的成品:

属于那种不会被别人看到的朋友。

这种神奇的文本图像生成模型被命名为DreamBooth，是谷歌的最新研究成果在Imagen的基础上进行了调整，一经发布便在推特上引起了热议

有网友调侃:这简直就是最先进的梗图生成器。

目前相关研究论文已上传至arXiv。

几张照片就能环游世界

在介绍原理之前，我们先来看看DreamBooth的各种能力，包括变换场景，分配动作和表情服装，变换风格等。

如果你是一个铲屎官，有了这种模式的换景能力，你可以足不出户的把你的狗送出家门，比如凡尔赛宫，富士山脚下。

光线也是自然的。

不仅如此，宠物的动作和表情也可以随意指定确实一句话p图的细节很到位

除了以上的基础练习，DreamBooth甚至可以改变各种照片风格，也就是所谓的添加滤镜。比如各种世界名画画风，各种视角的狗，不要太艺术化:

至于装修他们各种cosplay道具也是小菜一碟

此外，无论是改变颜色:

就更神奇了这个人工智能可以改变物种

那么，如此有趣的效果背后的原理是什么呢。

在输入中添加一个特殊标识符。

研究人员做了一个比较与DALL—E2，Imagen等其他大规模文本图像模型相比，只有DreamBooth方法可以忠实地还原输入图像

如下图所示，输入3个小闹钟，右边表盘有黄色3，其中DreamBooth生成的图像完美保留了时钟的所有细节，但DALL—E2和Imagen几次生成的时钟与原时钟略有不同。

李悝jy和李鬼。

也就是说，图像生成模型接收到的原始指令只是一种物体，比如，等，但是现在DreamBooth会在这类物体前面加一个特殊的标识符，就变成了

至于为什么不用它直接指代整体。

所以这里采用微调的思路总体来说，还是基于AI已经学习到的特征，再用学习到的特殊特征进行修饰

以一只白狗的产生为例在这里，模型会学习到狗的颜色，体型等个性化细节，再加上模型在这个大类中学习到的狗的共性，这样就可以生成更多既合理又不失个性的白狗照片

为了训练这种微调的文本—图像扩散模型，研究人员首先根据给定的文本描述生成一个低分辨率图像，然后在生成的图像中狗的图像是随机的。

然后，应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。

研究团队

Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生，目前在谷歌实习主要研究方向为模型生成，图像翻译，对抗攻击，人脸分析和仿真

论文的链接附在文末。感兴趣的朋友快来看看吧~

论文地址:

参考链接:

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

为你推荐