• Stable Cascade est un modèle de génération d'images à partir de texte, non commercial, récemment publié, basé sur l'architecture Würstchen. Il adopte une approche en trois étapes et est facile à entraîner et à affiner sur du matériel grand public.
  • Stable Cascade, un modèle innovant de synthèse texte-image construit sur l'architecture Würstchen, utilise une approche unique en trois étapes pour simplifier l'entraînement et l'affinage sur du matériel grand public, obtenant des résultats de haute qualité grâce à une compression hiérarchique.
  • Stable Cascade étend ses capacités au-delà de la génération texte-image standard en proposant des variations d'image, des générations image-à-image, et des scripts d'entraînement complets pour ControlNet et LoRA, démontrant sa flexibilité et sa polyvalence.

Stable Cascade est un modèle innovant de génération d'images à partir de texte qui atteint une sortie de haute qualité dans un espace d'image compressé grâce à une architecture unique en trois étapes, tout en réduisant les exigences matérielles. Le modèle et les scripts d'entraînement associés sont disponibles sur la page GitHub de Stability et permettent une personnalisation et une expérimentation plus poussées.

Une nouvelle ère dans la génération texte-image

Stable Cascade, construit sur l'architecture Würstchen, est un modèle innovant de synthèse texte-image publié en avant-première de recherche avec une licence non commerciale. Ce modèle se caractérise par une approche unique en trois étapes, simplifiant le processus d'entraînement et d'affinage sur du matériel grand public. La publication comprend des points de contrôle, des scripts d'inférence et des scripts d'entraînement supplémentaires pour ControlNet et LoRA, tous disponibles sur la page GitHub de Stability. Ce modèle est également accessible pour l'inférence via la bibliothèque diffusers. En se concentrant sur une compression hiérarchique des images, Stable Cascade obtient des résultats de haute qualité avec un espace latent hautement compressé, établissant de nouveaux repères en matière de qualité et d'efficacité pour la génération texte-image.

À lire également: Stability AI améliore la génération d'images avec un nouveau modèle de base Stable Diffusion

À lire également: Le PDG de Stability AI, Emad Mostaque, démissionne pour poursuivre une IA décentralisée

Dévoilement des détails techniques

L'architecture de Stable Cascade comprend trois étapes, chacune jouant un rôle crucial dans la génération d'images de haute qualité. L'étape C, la phase de générateur latent, transforme les entrées utilisateur en latents compacts de 24×24. Ceux-ci sont transmis aux étapes A et B, les phases de décodeur latent, qui compressent davantage les images, de manière similaire au rôle du VAE dans Stable Diffusion mais avec une compression beaucoup plus élevée.

Ce découplage permet un entraînement ou un affinage supplémentaire, y compris les ControlNets et les LoRAs, sur la seule étape C, réduisant les coûts d'un facteur 16 par rapport aux modèles Stable Diffusion de taille similaire. L'approche modulaire garantit une formation et une inférence efficaces, ce qui en fait une avancée significative dans le domaine.

Au-delà de la génération texte-image

Stable Cascade étend ses capacités au-delà de la génération texte-image standard en proposant des variations d'image et des générations image-à-image. En extrayant des plongements d'image à partir d'une image donnée à l'aide de CLIP, le modèle peut générer plusieurs variations de l'image originale. Cette fonctionnalité met en valeur la flexibilité et la polyvalence du modèle. De plus, la publication inclut des scripts d'entraînement et d'affinage pour ControlNet et LoRA, permettant aux utilisateurs d'expérimenter davantage avec l'architecture.

Des ControlNets spécifiques pour l'inpainting et l'outpainting sont également fournis, soulignant le potentiel du modèle pour des applications créatives et pratiques.

Focus communautaire et non commercial

Stable Cascade est actuellement disponible pour un usage non commercial uniquement. Cependant, Stability AI propose d'autres modèles d'image à des fins commerciales via leur page d'adhésion ou leur plateforme de développement. La publication encourage l'engagement communautaire et l'expérimentation, avec tout le code d'entraînement et d'inférence disponible sur la page GitHub de Stability. Stability AI invite les utilisateurs à se tenir au courant de leurs progrès via les plateformes de médias sociaux comme Twitter, Instagram, LinkedIn et leur communauté Discord.

Cette approche favorise un environnement collaboratif, visant à faire progresser le domaine de la génération texte-image tout en maintenant l'accessibilité et l'innovation.