文章转载来源:AIGC开放社区
原文来源:AIGC开放社区
图片来源:由无界 AI生成
11月29日,著名开源生成式AI平台Stability.ai在官网发布了,开源文生图模型SDXL Turbo。
根据使用体验,SDXL Turbo的生成图像效率非常快,可以做到实时响应(可能小于1秒)。
在你输入完最后一个文本后,图像就能马上显示,推理效率超过了Midjourney、DALL·E 3以及Stability.ai自己开发的Stable Difusion系列模型。
天下武功,无坚不破,唯快不破,SDXL Turbo就是大模型界的“博尔特”。用风驰电掣、电光石火、疾风骤雨来形容SDXL Turbo都不过分。
「AIGC开放社区」介绍了那么多的文生图模型,截至目前这个是响应最快,并且生成的图像质量非常高,精准还原提示文本的描述。
开源地址:https://github.com/Stability-AI/generative-models
在线体验地址:https://clipdrop.co/stable-diffusion-turbo
论文地址:https://stability.ai/s/adversarial_diffusion_distillation.pdf
SDXL Turbo是基于SDXL 1.0开发而成,并且使用了一种全新的对抗扩散蒸馏技术(ADD),将图像所需的生成步骤从50减少至1—4步,并且丝毫不影响图像质量。稍后「AIGC开放社区」会详细介绍这篇论文。
该技术可以在高质量图像下以1—4个步骤对大规模基础图像扩散模型进行采样。使用分数蒸馏来利用大规模现成的图像扩散模型作为指导。
并将其与对抗网络相结合,以确保即使在一个或两个采样步骤的低步骤状态下也能确保高图像保真度,同时避免了其他蒸馏方法中常见的失真或模糊问题。
为了测试SDXL Turbo的性能,Stability.ai使用相同的文本提示,与StyleGAN-T++,OpenMUSE,IF-XL,SDXL和LCM-XL等不同版本的文生图模型进行了比较。
测试结果显示,SDXL Turbo只用一个生成步骤,就击败了LCM-XL的4步骤生成的图像,以及击败了SDXL通过50个步骤生成的图像。
虽然SDXL Turbo功能很强,也有一些局限性。Stability.ai表示,目前SDXL Turbo只能用于学术研究,稍后会开放商业权限。
此外,SDXL Turbo只能生成512x512固定像素的图片,对一些细节可能表现的不够好,例如,人的手指、面部表情等,无法完美的展现照片级真实感。
但SDXL Turbo对扩散模型的生成效率、质量实现了重大技术突破,可以帮助中小型企业以更低的成本来进行部署使用。
来源:AIGC开放社区
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com