• Stable Cascade 是一种新发布的非商业文本生成图像模型,基于 Würstchen 架构。它采用三阶段方法,易于在消费级硬件上训练和微调。
  • Stable Cascade 是一种基于 Würstchen 架构的创新文本到图像模型,使用独特的三阶段方法简化了消费级硬件上的训练和微调过程,通过分层压缩实现高质量输出。
  • Stable Cascade 将其能力扩展到标准文本到图像生成之外,提供图像变体和图像到图像生成,以及全面的 ControlNet 和 LoRA 训练脚本,展示了其灵活性和多功能性。

Stable Cascade 是一种创新的文本生成图像模型,通过独特的三阶段架构在压缩的图像空间内实现高质量输出,同时降低了硬件要求。该模型及相关的训练脚本可在 Stability GitHub 页面获取,并支持进一步的自定义和实验。

文本到图像生成的新时代

Stable Cascade 基于 Würstchen 架构,是在研究预览中发布的创新文本到图像模型,采用非商业许可证。该模型采用独特的三阶段方法,简化了在消费级硬件上的训练和微调过程。此次发布包括检查点、推理脚本,以及用于 ControlNet LoRA 的额外训练脚本,所有内容均可在 Stability GitHub 页面获取。该模型还可通过 diffusers 库进行推理。通过专注于图像的分层压缩,Stable Cascade 利用高度压缩的潜在空间实现了高质量输出,为文本到图像生成的质量和效率设立了新基准。

另请阅读:Stability AI 通过新的 Stable Diffusion 基础模型提升图像生成水平

另请阅读:Stability AI CEO Emad Mostaque 辞职以追求去中心化 AI

技术细节揭晓

Stable Cascade 的架构包括三个阶段,每个阶段在生成高质量图像中都扮演着关键角色。阶段 C,即潜在生成器阶段,将用户输入转换为紧凑的 24×24 潜在表示。这些潜在表示被传递到阶段 A 和阶段 B,即潜在解码器阶段,它们进一步压缩图像,类似于 Stable Diffusion 中 VAE 的作用,但压缩率更高。这种解耦允许仅在阶段 C 上进行额外的训练或微调,包括 ControlNet 和 LoRA,与类似大小的 Stable Diffusion 模型相比,成本降低了 16 倍。模块化方法确保了高效的训练和推理,成为该领域的一项重大进步。

超越文本到图像生成

Stable Cascade 将其能力扩展到标准文本到图像生成之外,提供图像变体和图像到图像生成功能。通过使用 CLIP 从给定图像中提取图像嵌入,该模型可以生成原始图像的多个变体。这一功能展示了模型的灵活性和多功能性。此外,发布版还包括用于 ControlNet 和 LoRA 的训练和微调脚本,使用户能够进一步实验该架构。还提供了用于修复和扩展的特定 ControlNet,突显了该模型在创意和实际应用中的潜力。

社区和非商业焦点

Stable Cascade 目前仅可用于非商业用途。然而,Stability AI 通过其会员页面或开发者平台提供其他可用于商业目的的图像模型。此次发布鼓励社区参与和实验,所有训练和推理代码均在 Stability GitHub 页面上提供。Stability AI 邀请用户通过 Twitter、Instagram、LinkedIn 和 Discord 社区等社交媒体平台了解其最新进展。这种方法营造了协作环境,旨在推动文本到图像生成领域的发展,同时保持可及性和创新性。