鹅厂最新AI工具刷屏！杨幂寡姐多风格写真秒秒钟生成，LeCun点赞

文章转载来源：AI领航员

文章来源：量子位

图片来源：由无界 AI生成

大厂们在整活方面开始卷起来了！

前脚字节阿里的工具火了，现在腾讯这个新照片生成应用PhotoMaker直接刷屏，瞧这阵仗……

只需上传一张或以上照片，无需额外LoRA训练，就能快速可定制。任何人、任何风格，高保真那种。

于是秒秒钟，LeCun化身钢铁侠。但随后LeCun转发表示：那个文艺复兴时期的绘画风格是他最喜欢的。

杨幂各类风格写真爆出。

除此之外，还有更多有意思的功能，目前应用Demo已免费开放体验。

这就来提前体验一把。

PhotoMaker刷屏

总结来看，PhotoMaker主要有这样三大功能：

第一个，可以根据描述生成多种风格个人照片。

比如，你见过这样的黑寡妇吗？

就是在二次元里也行的照片，也可以生成。

第二个，混合不同人物特征，生成全新人物形态。

脑洞大开一下，奥特曼和乔布斯“生”的孩子，可能长这样？？？

甚至还可以破次元结合！

除此之外，还有一些小细节的功能，修改个年龄、性别以及照片年代啥的。

小时候的马斯克，你见过吗？

当LeCun变成几十岁大妈……

目前，研究团队给了两个体验版本：官方原版以及风格化版本。其中风格化版，要想实现更好的效果，仅需要更改基础模型并添加LoRA模块。

不过这两个版本食用起来没有任何区别，主要分为三个步骤。

首先，上传你想定制的照片。一张可以，多张也行。

值得注意的是，他们这里强调了，他们不会进行人脸检测，但上传的图片人脸已经要占据图片大部分。

其次，输入文字提示，确保在要定制的类别词后面加上触发词：img。

如：男人 img 或女人 img 或女孩 img。

然后再选择喜欢的样式、风格模版，就可以生成了。

不过现在实测，效果会出的比较慢，可能是太多人使用了。

如何实现?

简单来说，PhotoMaker采用了一种简单而有效的表示方法——堆叠ID嵌入。

它可将多个身份证明（ID）图像的信息合并成统一的数据结构，这样能更好保存单个ID信息的同时，还能整合多个不同ID特征。

具体而言，首先，分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后，通过合并相应的类别嵌入（比如性别）和每个图像嵌入，提取融合嵌入。接着，沿长度维度串联所有融合嵌入，形成堆叠ID嵌入。最后再将其输入到Diffusion Model生成图像。

由于训练过程需要使用按ID分类的数据集，但现有数据集要么没有注释ID信息，要么所包含的场景丰富度有限，比如只关注面部区域。

为此，研究人员还专门构建了一个以ID为导向的文本图像数据集构建管线，它能按照不同ID进行分类。每个ID都有多幅图像，这些图像包括不同的表情、属性、场景等。

需要注意的是，虽然训练过程中使用的是带背景遮蔽的同一ID图像，但在推理过程，可直接输入不同ID、且不带背景遮蔽的图形，来创建新ID。

实验结果表明，与其他方法相比，PhotoMaker具备高质量和多样化的生成能力，以及可编辑性、保真性。

此外，这一方法还能实现更多以往难实现的有趣功能。比如改变年龄或性别、将旧照片或艺术作品中的人物还原到现实中以及身份混合等。

好了，感兴趣的朋友可戳下方链接玩玩~
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
论文链接：
https://arxiv.org/abs/2312.04461
项目链接：
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo