魔改StableDiffusion，开源创新“单目深度估计”模型

转载

900 天前

4883

AIGC开放社区

文章转载来源：AIGC开放社区

文章来源：AIGC开放社区

图片来源：由无界 AI生成

单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。

即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。

为了解决这些难题，苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练，而是在Stable Diffusion（著名开源文生图模型）的基础上进行微调，只需要使用合成数据微调了中间的去噪网络,其他模块例如，编码/解码结构均保持原样,极大降低了训练成本。

实验数据显示，尽管Marigold从未直接学习过真实的深度信息，但在真实场景的测试中，其性能却超越了其他专门训练过的模型，并且迁移、兼容性非常强。

开源地址：https://github.com/prs-eth/Marigold

论文地址：https://arxiv.org/abs/2312.02145

Marigold的核心技术思路是，利用Stable Diffusion模型所捕获的丰富先验知识，来提升深度估计的泛化能力和性能。

简单来说，就是把Stable Diffusion当成一个图片查询数据库，只修改其去噪模块，就变成了可实现单目深度估计的全新模型。

Marigold的关键点在于保持预训练扩散模型的潜在空间，只对去噪U-Net进行修改和微调。

这种方法非常高效，无需实际深度图像的训练数据，就能在多个真实数据集上取得出色的性能表现。

Marigold提供了一个简单而资源高效的微调协议，将预训练的扩散生成模型转化为图像条件的深度估计器，成为了一种功能强大的单目深度估计模块。

Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天，将Stable Diffusion转化为Marigold模型。主要流程如下：

去噪U-Net

研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块，来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络，用于从输入图像中学习去除噪声的表示。

在Marigold模型中，研究人员保持了扩散模型的潜空间不变，只对去噪U-Net模块进行微调，以适应深度估计任务。

合成数据训练

为了微调Marigold模型，研究人员使用了合成的RGB-D训练数据，对模型进行训练。合成数据是通过在虚拟环境中，渲染图像并生成对应的深度图来创建的。

通过使用合成数据进行训练，Marigold可以学习到广泛的场景和物体形状，从而提高其在未见过数据集上的泛化能力。

仿射不变深度估计

Marigold使用了一种仿射不变的深度估计方法，能够估计图像中每个像素的深度值，而不受全局偏移和尺度的影响。

这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度，Marigold可以消除由于相机内参的不确定性，而引入的深度估计误差。

关键词：

来源：AIGC开放社区

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：2024年，AI“魔盒”还能开出什么？

下一篇：杨斌丨既已“如神”，何以“善任”？——重温斯图尔特·布兰德的警示

魔改StableDiffusion，开源创新“单目深度估计”模型

去噪U-Net

合成数据训练

仿射不变深度估计

18256篇

124986292

新闻排行

李国飞：繁荣越令人沉醉，危机往往埋得越深|《1929》推荐序

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

友情链接：