聊聊2天狂拦2300Star的AnimateAnyone，让你的图片动起来

转载

729 天前

7396

AIGC

文章转载来源：AIGC

原文来源：青稞AI

作者：Li Hu、Xin Gao

图片来源：由无界 AI生成

Project page: https://humanaigc.github.io/animate-anyone/

Code: https://github.com/HumanAIGC/AnimateAnyone

Arxiv: https://arxiv.org/pdf/2311.17117.pdf

Youtube Video: https://www.youtube.com/watch?v=8PCn5hLKNu4

前言

Animate Anyone是阿里巴巴通义实验室XR Lab最新推出的成果，只需要单张图片和Openpose动作就可以让图片动起来并保持稳定性。

具体来说，Animate Anyone是基于Diffusion model (扩散模型结构)来进行pose2video的生成，通过如2D openpose的姿态骨架skeleton，来引导(guide)网络生成和参考图像reference image一致的角度动态效果。

Animate Anyone也是第一个在Pose2Video领域生成角色动画达到80分成绩的方法。Twitter上各路大V都在转。

在Reddit的SD channel热度排名第1！

https://www.reddit.com/r/StableDiffusion/comments/187csur/new_techanimate_anyone_consistent_and/

核心贡献

•ReferenceNet： ReferenceNet这个组件能够将参考图(reference image)中的细节，集成(integrate)通过spatial attention(空间attention机制)到diffusion model。此网络是保持复杂的外观特征与reference image一致性的关键。

青稞?：这个spatial attention和Stable Diffusion (Latent Diffusion Model)中的self attention机制很像，主要是通过self attention/spatial attention对加噪图像特征的融合，来把参考图像的特征和控制视频动态的2D skeleton pose图像融合在一起。

•Pose Guider： 将姿态控制信号集成到去噪过程(denoising process)中的轻量级组件，确保角色运动的可控性和连续性。

青稞?：Pose Guider这种设计是Video Diffusion model中的一个比较常见的设计，但是, 虽然设计本身并不复杂，能够通过Pose Guider生成稳定连续的角色动画/视频也是很难的。之前的工作解决的也都不是很理想。可以说，Animate Anyone第一次把Pose2Video做到了80分的水平！

•Temporal attention Layer： 其作用是确保视频帧间的平滑过渡和连续性，解决角色动画生成时的稳定性(stability)和连续性(continuity)。

另外,，还想和大家分享下作者对于训练策略的思考：Animate Anyone首先是基于Diffusion text-to-image框架进行修改，把prompt的特征(bs, 77, 768)部分改成clip特征，然后适配多帧输入以用于视频生成。

其训练策略是二阶段(two-stage)的，stage 1阶段重点研究没有时间层的单个视频帧(single video frame)，在得到一个稳定的基模后，在stage 2阶段引入temporal layer，相当于在stage 1阶段的基础上进一步finetune和优化模型来进行video synthesis(视频合成)。

青稞?认为, 这个逻辑是视频稳定性的核心, 后续小伙伴也可以参考Animate Anyone的方法来进行分析和设计。

缺陷和不足

虽然AnimateAnyone非常好, 但还是有一些可以优化的空间.

•该模型有时难以为生成稳定的手部运动生成结果，从而导致扭曲(distortion)和运动模糊(motion blur)。

•由于参考图一般是正视图，对于背后或者unseen part的生成可能不是很理想。(需要base model有更强的生成人体的prior)•由于引入DDPM，导致需要引入多步采样，推理时间和训练成本相比GAN等生成方法较高。

作者

一作是Li Hu，硕士毕业于浙江大学，现从事video diffusion相关研究和业务工作；Li Hu主要是做video segmentation和image segmentation等相关方向的研究。

二作Xin Gao，硕士毕业于浙江大学；主要做基于图像的2D虚拟试衣等研究方向。

同时参与的还有Ke Sun，HRNet（4-5年前很火的Backbone）一作，目前HRNet的Google Scholar citation已经来到了3000+，妥妥的大佬了。

团队阿里巴巴通义实验室XR Lab则是Liefeng Bo领导的团队，旗下主要方向有2D/3D数字人，3D AIGC(人、物、场重建和生成)，AR/VR电商等板块。私信进AnimateAnyone交流群！

关键词：

来源：AIGC

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：微软仅凭「提示工程」让GPT-4成医学专家！超过一众高度微调模型，专业测试准确率首次超90%

下一篇：传统证券交易所的“代币化时刻”：纳斯达克如何定义RWA的未来？

聊聊2天狂拦2300Star的AnimateAnyone，让你的图片动起来

前言

核心贡献

缺陷和不足

16812篇

110344446

新闻排行

HashKey上市聆讯过关，“香港加密资产第一股”将如何重塑RWA与数字金融生态？

Zama如何为区块链披上“量子隐形战衣”？

没有AgentOracle，AI经济就是空中楼阁

香港RWA战况升级：EnsembleTX开启“实战”模式，万亿央企抢跑入局

梳理Tether近期投资的20家公司，“数字金融帝国”的三大战略浮现

比特币暴跌30%，真的进入熊市了吗？用5种分析框架综合评估

股价跌去八成之后，BitMine还有投资价值吗？

5张图表看懂当前比特币市场现状：我们处于哪个阶段？

友情链接：