给Imagen加上命中你所指的地方的能力会变得多强只需上传3—5张指定物体的照片,然后用文字描述出你想要生成的背景,动作或表情,指定物体就能闪进你想要的场景,动作表情都栩栩如生
不仅是动物,其他物品如太阳镜,书包和花瓶也可以制成几乎是真正的成品:
属于那种不会被别人看到的朋友。
这种神奇的文本图像生成模型被命名为DreamBooth,是谷歌的最新研究成果在Imagen的基础上进行了调整,一经发布便在推特上引起了热议
有网友调侃:这简直就是最先进的梗图生成器。
目前相关研究论文已上传至arXiv。
几张照片就能环游世界
在介绍原理之前,我们先来看看DreamBooth的各种能力,包括变换场景,分配动作和表情服装,变换风格等。
如果你是一个铲屎官,有了这种模式的换景能力,你可以足不出户的把你的狗送出家门,比如凡尔赛宫,富士山脚下。
光线也是自然的。
不仅如此,宠物的动作和表情也可以随意指定确实一句话p图的细节很到位
除了以上的基础练习,DreamBooth甚至可以改变各种照片风格,也就是所谓的添加滤镜。比如各种世界名画画风,各种视角的狗,不要太艺术化:
至于装修他们各种cosplay道具也是小菜一碟
此外,无论是改变颜色:
就更神奇了这个人工智能可以改变物种
那么,如此有趣的效果背后的原理是什么呢。
在输入中添加一个特殊标识符。
研究人员做了一个比较与DALL—E2,Imagen等其他大规模文本图像模型相比,只有DreamBooth方法可以忠实地还原输入图像
如下图所示,输入3个小闹钟,右边表盘有黄色3,其中DreamBooth生成的图像完美保留了时钟的所有细节,但DALL—E2和Imagen几次生成的时钟与原时钟略有不同。
李悝jy和李鬼。
也就是说,图像生成模型接收到的原始指令只是一种物体,比如,等,但是现在DreamBooth会在这类物体前面加一个特殊的标识符,就变成了
至于为什么不用它直接指代整体。
所以这里采用微调的思路总体来说,还是基于AI已经学习到的特征,再用学习到的特殊特征进行修饰
以一只白狗的产生为例在这里,模型会学习到狗的颜色,体型等个性化细节,再加上模型在这个大类中学习到的狗的共性,这样就可以生成更多既合理又不失个性的白狗照片
为了训练这种微调的文本—图像扩散模型,研究人员首先根据给定的文本描述生成一个低分辨率图像,然后在生成的图像中狗的图像是随机的。
然后,应用超分辨率扩散模型将随机图像替换为用户上传的特定狗。
研究团队
Nataniel Ruiz是波士顿大学图像与视频计算组的四年级博士生,目前在谷歌实习主要研究方向为模型生成,图像翻译,对抗攻击,人脸分析和仿真
论文的链接附在文末。感兴趣的朋友快来看看吧~
论文地址:
参考链接:
上一篇:晶澳科技:光伏是充分竞争行业新组件厂商进入是正常现象
下一篇:返回列表
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。