文生图10倍速，视频实时渲染！清华发布LCM：兼容全部SD大模型、LoRA、插件等

文章转载来源：AGIing

来源：新智元

作者：谭炜达

编辑：LRS 好困

图片来源：由无界AI 生成

Latent Consistency Models（潜一致性模型）是一个以生成速度为主要亮点的图像生成架构。

和需要多步迭代传统的扩散模型（如Stable Diffusion）不同，LCM仅用1 - 4步即可达到传统模型30步左右的效果。

由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明，LCM将文生图生成速度提升了5-10倍，世界自此迈入实时生成式AI的时代。

LCM-LoRA: https://huggingface.co/papers/2311.05556

项目主页：https://latent-consistency-models.github.io/

Stable Diffusion杀手：LCM

在LCM出现之前, 不同团队在各种方向探索了五花八门的SD1.5和SDXL替代方案。

这些项目各有特色，但都存在着不兼容LoRA和不完全兼容Stable Diffusion生态的硬伤。按发布时间顺序，比较重要的项目有：

这时，LCM-LoRA出现了：将SD1.5、SSD1B、SDXL蒸馏为LCM的LoRA，将生成5倍加速生成能力带到所有SDXL模型上并兼容所有现存的LoRA，同时牺牲了小部分生成质量; 项目迅速获得了Stable Diffusion生态大量插件、发行版本的支持。

LCM同时也发布了训练脚本，可以支持训练自己的LCM大模型（如LCM-SDXL）或LCM-LoRA，做到兼顾生成质量和速度。只要一次训练，就可以在保持生成质量的前提下提速5倍。

至此，LCM生态体系具备了完整替代SD的雏形。

截止至2023/11/22，已支持LCM的开源项目：

计划中添加支持的项目：

随着生态体系的逐渐发展，LCM有潜力作为新一代图像生成底层完整替代Stable Diffusion。

未来展望

自Stable Diffusion发布至今，生成成本被缓慢优化，而LCM的出现使得图像生成成本直接下降了一个数量级。每当革命性的技术出现，都会带来重塑产业的大量机会。LCM至少能在图像生成成本消失、视频生成、实时生成三大方面给产业格局带来重大变化。

1. 图像生成成本消失

To C产品端，免费替代收费。受高昂的GPU算力成本限制，以Midjourney为代表的大量文生图服务选择免费增值作为商业模型。LCM使手机客户端、个人电脑CPU、浏览器（WebAssembly）、更容易弹性扩容的CPU算力都可能在未来满足图像生成的算力需求。简单的收费文生图服务如Midjourney会被高质量的免费服务替代。

To B服务端，减少的生成算力需求会被增长的训练算力需求替代。

AI图片生成服务对算力的需求在峰值和谷底涨落极大，购买服务器闲置时间通常超过50%。这种特点促进了大量函数计算GPU（serverless GPU）如美国Replicate、中国阿里云的蓬勃发展。

硬件虚拟化方面如国内的瑞云、腾讯云等也在浪潮中推出了图像模型训练相关虚拟桌面产品。随着生成算力下放到边缘、客户端或更容易扩容的CPU算力，AI生图将普及到各类应用场景中，图像模型微调的需求会大幅上涨。在图像领域，专业、易用、垂直的模型训练服务会成为下一阶段云端GPU算力的主要消费者。

2. 文生视频

文生视频目前极高的生成成本制约了技术的发展和普及，消费级显卡只能以缓慢的速度逐帧渲染。以AnimateDiff WebUI插件为代表的一批项目优先支持了LCM，使得更多人能参与到文生视频的开源项目中。更低的门槛必然会加速文生视频的普及和发展。