训练成本降低16倍，极限压缩42倍！开源文本生成图片模型

文章转载来源：AIcore

原文来源：AIGC开放社区

图片来源：由无界 AI‌ 生成

Stable Diffusion是目前最强开源文本生成图片的扩散模型之一，但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点，需要花费高昂的训练成本。

为了解决这一痛点，Wuerstchen开源模型采用了一种全新的技术架构，在保证图片质量的情况下实现了42倍极限压缩。以512x512尺寸的训练图片为例，Stable Diffusion1.4需要150,000小时的GPU训练时间，而Wuerstchen仅需要 9,000小时，训练成本降低了16倍。

即便是图片分辨率高达1536，Wuerstchen也只需要24,602小时，训练成本仍然比Stable Diffusion便宜6倍。

所以，该开源产品有利于那些没有庞大算力的开发者去尝试扩散模型，同时可以在此基础之上探索更好的训练方法。

开源地址：https://huggingface.co/warp-ai/wuerstchen‌

Github：https://github.com/dome272/Wuerstchen‌

论文：https://arxiv.org/abs/2306.00637<br/>‌

Wuerstchen简单介绍

Wuerstchen扩散模型采用了一种，在图像的高度压缩的潜在空间中的工作方法。这也是其训练成本比Stable Diffusion低的原因之一。

压缩数据可以将训练和推理的成本减少几个数量级。例如，在1024×1024的图像上训练肯定要比32×32上训练贵得多。通常业内采用的压缩范围在4—8倍左右。

而Wuerstchen通过全新的技术架构将压缩发挥到极限，实现了42倍空间压缩，这是史无前例的技术突破！因为一旦超过16倍压缩，普通方法根本无法实现图片的重建。

Wuerstchen极限压缩原理

Wuerstchen的极限压缩方法分为A、B、C三个阶段：A阶段）进行初始训练，并采用向量量化生成对抗网络 (VQGAN) 来创建离散化潜在空间，将数据映射到一个预定义的、较小的集合中的点，这种紧凑的表示形式有助于模型学习和推理速度；

B阶段）进一步压缩，使用一个编码器将图像投影到一个更加紧凑的空间，和一个解码器试图从编码的图像中重建VQGAN的潜在表达。

并使用了基于Paella模型的标记预测器来完成这个任务。该模型是在编码图像的表示的条件下进行的，可以使用更少的采样步骤数量进行训练，这对于提升算力效率帮助巨大。

C阶段）使用A、B的图像编码器将图像投射到紧凑的潜在空间，训练一个文本条件的潜在扩散模型，并显著减少空间维度。这个离散的潜在空间允许模型生成，更具有多样性和创新性的图像，同时还保留了图片的高质量特征。

Wuerstchen可以生成的图片尺寸

Wuerstchen接受了 1024x1024 和1536x1536分辨率之间的图像训练数据，输出的图片质量非常稳定。即便是1024x2048这样的非对等图片，同样可以得到很好的效果。

开发者还发现，Wuerstchen对新分辨率图片的训练适应能力非常强，在2048x2048分辨率图片下进行数据微调，同样能极大降低成本。

Wuerstchen生成图片展示

根据Wuerstchen展示的案例，该模型对文本的理解能力非常好，生成的质量效果也能媲美Stable Diffusion等目前最强开源扩散模型。

一只穿着白大褂的鹰的真实照片

两名星球大战里的冲锋队员，坐在酒吧里喝啤酒

蜜蜂打扮成宇航员的高度真实照片

一只戴着黑色礼貌的老鼠

下载APP，阅读全文得现金

关键词：

来源：AIcore

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：一周AIGC丨Databricks再获融资，估值达到430亿美元，周鸿祎称大模型以后会变得“白菜价”

下一篇：RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

新闻排行

                    
RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

对话美财长ScottBessent，解构2026宏观迷雾下的“世界想象力”

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

App打开

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

App打开

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

App打开