谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

2022-11-06 16:05来源：IT之家阅读量：6791

拍照的时候模特配合不好怎么办。

没什么！现在只能用一句话来后p图，还是那种可以改变动作和表情的！

例如，你可以很容易地让一只鸟展开翅膀:

或者，想让一只站着的狗蹲下来:

看起来真的很不错！而这种新的p图方法，称为Imagic，是基于爆炸火灾的扩散模型。

是的，又是扩散模型，它的能力就不用介绍了。

在扩散模型的加持下，Imagic到底有什么强大的地方。话不多说，大家来看看吧！

多达6种功能

据不完全统计，Imagic的功能有六种。

我们来看看这个p图神器改变姿势的效果。比如输入一只站立的狗，通过改变提示文字，结果是酱紫~

或者输入一个随意站立的人，输入密码，他就会百依百顺，任你摆布，甚至可以凭空出现一个水杯。

你还没看够吗然后再来康康Imagic的其他功能:改变颜色，或者添加物体您也可以同时使用多种功能

总的来说，Imagic强大的方面太多了，这里就不详细展开了效果见下图

除了这样的通用性，Imagic还有一个更人性化的点，就是当你告诉它如何p图时，它会随机生成几个不同的选项供你选择。

这时候就有网友会问Imagic有什么厉害的。

话不多说，直接对比效果。

这样一来，很明显Imagic完成P图指令的效果非常好，细节上也不逊于其他机型。

那么Imagic是如何击败SDEdit和Text2LIVE达到这样的效果的呢。

是如何实现的。

千言万语可以总结为四个字:扩散模型，在论文的标题中赫然列出。

具体到Imagic，扩散模型是如何发挥作用的我们来看看详细的P图流程

总体来说，分为三大步骤。

第一步是优化文本嵌入层。

具体来说，首先给出输入图像和目标文本，然后对目标文本进行编码，得到初始嵌入层。

然后，不断调整初始嵌入层，使其能够通过预先训练的扩散模型很好地重建输入图像。

这样，最终将获得优化的嵌入层。

第二步是微调扩散模型此时，在嵌入层穿过模型之后，在先前步骤中优化的嵌入层将用于重构输入图像

在重建过程中，需要不断地改变模型中损失函数的参数，使模型适应优化的输入层，直到输入图像能够很好地重建，从而得到微调后的模型。

第三步，开始官方p图。

值得一提的是，在这一步中，除了输入初始目标嵌入层，还会插入优化嵌入层，它们的关系如下图所示。

通过改变参数，实际效果如下图所示。

研究团队

值得一提的是，Bahjat Kawar仍然是以色列理工学院的博士生，他在谷歌研究院实习期间完成了这项研究。

Shiran Zada今年5月刚刚加入谷歌研究院，目前是一名计算机视觉研究员。

他曾在微软担任软件工程师和技术总监，主要负责网络安全相关的项目开发。

参考链接:

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。