• Stable Cascade es un modelo de generación de imágenes a partir de texto no comercial recién lanzado, basado en la arquitectura Würstchen. Adopta un enfoque de tres etapas y es fácil de entrenar y ajustar en hardware de consumo.
  • Stable Cascade, un innovador modelo de texto a imagen construido sobre la arquitectura Würstchen, utiliza un enfoque único de tres etapas para simplificar el entrenamiento y ajuste en hardware de consumo, logrando salidas de alta calidad con compresión jerárquica.
  • Stable Cascade amplía sus capacidades más allá de la generación estándar de texto a imagen ofreciendo variaciones de imagen, generaciones de imagen a imagen y scripts de entrenamiento completos para ControlNet y LoRA, demostrando su flexibilidad y versatilidad.

Stable Cascade es un innovador modelo de generación de imágenes a partir de texto que logra salidas de alta calidad dentro de un espacio de imagen comprimido a través de una arquitectura única de tres etapas, reduciendo al mismo tiempo los requisitos de hardware. El modelo y los scripts de entrenamiento asociados están disponibles en la página de GitHub de Stability y permiten una mayor personalización y experimentación.

Una nueva era en la generación de texto a imagen

Stable Cascade, construido sobre la arquitectura Würstchen, es un innovador modelo de texto a imagen lanzado en una vista previa de investigación con una licencia no comercial. Este modelo presenta un enfoque único de tres etapas, simplificando el proceso de entrenamiento y ajuste en hardware de consumo. El lanzamiento incluye puntos de control, scripts de inferencia y scripts de entrenamiento adicionales para ControlNet y LoRA, todos disponibles en la página de GitHub de Stability. Este modelo también es accesible para inferencia a través de la biblioteca diffusers. Al centrarse en una compresión jerárquica de imágenes, Stable Cascade logra salidas de alta calidad con un espacio latente altamente comprimido, estableciendo nuevos puntos de referencia en calidad y eficiencia en la generación de texto a imagen.

Lea también: Stability AI mejora la generación de imágenes con un nuevo modelo base de Stable Diffusion

Lea también: El CEO de Stability AI, Emad Mostaque, renuncia para perseguir la IA descentralizada

Desvelando los detalles técnicos

La arquitectura de Stable Cascade consta de tres etapas, cada una desempeñando un papel crucial en la generación de imágenes de alta calidad. La Etapa C, la fase de Generador Latente, transforma las entradas del usuario en latentes compactos de 24×24. Estos se pasan a las Etapas A y B, las fases de Decodificador Latente, que comprimen aún más las imágenes, similar al papel del VAE en Stable Diffusion pero con una compresión mucho mayor.

Este desacoplamiento permite entrenamiento o ajuste adicional, incluidos ControlNets y LoRAs, solo en la Etapa C, reduciendo los costos en 16 veces en comparación con modelos de Stable Diffusion de tamaño similar. El enfoque modular garantiza un entrenamiento e inferencia eficientes, lo que lo convierte en un avance significativo en el campo.

Más allá de la generación de texto a imagen

Stable Cascade amplía sus capacidades más allá de la generación estándar de texto a imagen, ofreciendo variaciones de imagen y generaciones de imagen a imagen. Al extraer incrustaciones de imagen de una imagen dada utilizando CLIP, el modelo puede generar múltiples variaciones de la imagen original. Esta característica demuestra la flexibilidad y versatilidad del modelo. Además, el lanzamiento incluye scripts de entrenamiento y ajuste para ControlNet y LoRA, lo que permite a los usuarios experimentar más con la arquitectura.

También se proporcionan ControlNets específicos para inpaining y outpaining, destacando el potencial del modelo para aplicaciones creativas y prácticas.

Enfoque comunitario y no comercial

Stable Cascade está actualmente disponible solo para uso no comercial. Sin embargo, Stability AI ofrece otros modelos de imagen para fines comerciales a través de su página de Membresía o Plataforma para Desarrolladores. El lanzamiento fomenta la participación y experimentación de la comunidad, con todo el código de entrenamiento e inferencia disponible en la página de GitHub de Stability. Stability AI invita a los usuarios a mantenerse actualizados sobre su progreso a través de plataformas de redes sociales como Twitter, Instagram, LinkedIn y su comunidad de Discord.

Este enfoque fomenta un entorno colaborativo, con el objetivo de avanzar en el campo de la generación de texto a imagen manteniendo la accesibilidad y la innovación.