什么是 Stability AI？

Stable Cascade 是一种新发布的非商业文本生成图像模型，基于 Würstchen 架构。它采用三阶段方法，易于在消费级硬件上训练和微调。
Stable Cascade 是一种基于 Würstchen 架构的创新文本到图像模型，使用独特的三阶段方法简化了消费级硬件上的训练和微调过程，通过分层压缩实现高质量输出。
Stable Cascade 将其能力扩展到标准文本到图像生成之外，提供图像变体和图像到图像生成，以及全面的 ControlNet 和 LoRA 训练脚本，展示了其灵活性和多功能性。

Stable Cascade 是一种创新的文本生成图像模型，通过独特的三阶段架构在压缩的图像空间内实现高质量输出，同时降低了硬件要求。该模型及相关的训练脚本可在 Stability GitHub 页面获取，并支持进一步的自定义和实验。

文本到图像生成的新时代

Stable Cascade 基于 Würstchen 架构，是在研究预览中发布的创新文本到图像模型，采用非商业许可证。该模型采用独特的三阶段方法，简化了在消费级硬件上的训练和微调过程。此次发布包括检查点、推理脚本，以及用于 ControlNet 和 LoRA 的额外训练脚本，所有内容均可在 Stability GitHub 页面获取。该模型还可通过 diffusers 库进行推理。通过专注于图像的分层压缩，Stable Cascade 利用高度压缩的潜在空间实现了高质量输出，为文本到图像生成的质量和效率设立了新基准。

另请阅读：Stability AI 通过新的 Stable Diffusion 基础模型提升图像生成水平

另请阅读：Stability AI CEO Emad Mostaque 辞职以追求去中心化 AI

技术细节揭晓

Stable Cascade 的架构包括三个阶段，每个阶段在生成高质量图像中都扮演着关键角色。阶段 C，即潜在生成器阶段，将用户输入转换为紧凑的 24×24 潜在表示。这些潜在表示被传递到阶段 A 和阶段 B，即潜在解码器阶段，它们进一步压缩图像，类似于 Stable Diffusion 中 VAE 的作用，但压缩率更高。这种解耦允许仅在阶段 C 上进行额外的训练或微调，包括 ControlNet 和 LoRA，与类似大小的 Stable Diffusion 模型相比，成本降低了 16 倍。模块化方法确保了高效的训练和推理，成为该领域的一项重大进步。

超越文本到图像生成

Stable Cascade 将其能力扩展到标准文本到图像生成之外，提供图像变体和图像到图像生成功能。通过使用 CLIP 从给定图像中提取图像嵌入，该模型可以生成原始图像的多个变体。这一功能展示了模型的灵活性和多功能性。此外，发布版还包括用于 ControlNet 和 LoRA 的训练和微调脚本，使用户能够进一步实验该架构。还提供了用于修复和扩展的特定 ControlNet，突显了该模型在创意和实际应用中的潜力。

社区和非商业焦点

Stable Cascade 目前仅可用于非商业用途。然而，Stability AI 通过其会员页面或开发者平台提供其他可用于商业目的的图像模型。此次发布鼓励社区参与和实验，所有训练和推理代码均在 Stability GitHub 页面上提供。Stability AI 邀请用户通过 Twitter、Instagram、LinkedIn 和 Discord 社区等社交媒体平台了解其最新进展。这种方法营造了协作环境，旨在推动文本到图像生成领域的发展，同时保持可及性和创新性。

什么是 Stability AI？

文本到图像生成的新时代

技术细节揭晓

超越文本到图像生成

社区和非商业焦点

信号简报

运营面

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报