L'intérêt pour les modèles d'IA générative a explosé, porté par les avancées en traitement

du langage naturel et en génération d'images.
L'intérêt pour les modèles d'IA générative a explosé, porté par les avancées en traitement
du langage naturel et en génération d'images. META, un acteur de premier plan dans le domaine de la recherche en IA,
a présenté CM3leon, un modèle multimodal de pointe. Multimodal signifie
que l'IA est capable à la fois de génération texte-image et image-texte.
L'approche unique de CM3leon combine une recette issue des modèles de langage textuels.
Le modèle de Meta utilisera un pré-entraînement à grande échelle avec récupération augmentée et des étapes de
réglage fin supervisé multitâche.

Meilleures performances en génération d'images
Bien qu'entraîné avec cinq fois moins de ressources de calcul que les méthodes
antérieures basées sur les transformeurs, CM3leon atteint des performances de pointe en génération
texte-image. Notamment, il fait preuve de la polyvalence des modèles autorégressifs tout en
maintenant des coûts d'entraînement faibles et une inférence efficace.

Ce modèle basé sur la tokénisation va au-delà des approches conventionnelles de génération texte-image. Il
peut générer des séquences complexes de texte et d'images conditionnées par un contenu arbitraire.
Contrairement à d'autres modèles spécialisés dans la génération d'images, le réglage fin
à grande échelle par instructions multitâches de CM3leon améliore considérablement les performances dans diverses tâches
vision-langage, telles que la génération de légendes d'images et la réponse visuelle à des questions.

Approvisionnement éthique en données d'images
Meta a annoncé adopter une approche éthique pour l'approvisionnement en données d'images, en utilisant uniquement
des images sous licence de Shutterstock pour éviter les problèmes de propriété et d'attribution.
Cette méthodologie socialement responsable distingue CM3leon de ses concurrents.
Lors d'une comparaison avec des benchmarks largement utilisés, CM3leon obtient un score FID
impressionnant de 4,88, surpassant le modèle Parti de Google et établissant une nouvelle norme pour la génération
texte-image. Un score de Frechet Inception Distance (FID) de 0,0 indique un score
parfait. CM3leon montre une capacité à générer des objets compositionnels complexes, comme en témoignent
des exemples tels qu'un cactus en pot portant des lunettes de soleil et un chapeau.

Des défis restent à relever
Bien que la promesse de CM3leon soit indéniable, certains défis doivent être relevés. Comme pour tout modèle d'IA, les biais potentiels dans les données sont une préoccupation, car les résultats du modèle peuvent refléter
les biais présents dans ses données d'entraînement.

De plus, bien que CM3leon puisse générer des images de haute qualité, les résultats peuvent varier en fonction de la complexité des invites et de la qualité des données d'entraînement.
En outre, CM3leon nécessite encore des ressources de calcul importantes, ce qui pourrait
limiter l'accessibilité pour les petites organisations et les particuliers. Bien qu'il
fasse preuve de remarquables capacités de généralisation, il peut avoir des limites pour
générer un contenu entièrement nouveau en dehors de ses données d'entraînement.

Bien que CM3leon montre un grand potentiel, sa disponibilité actuelle est limitée à des fins de recherche.
Au fur et à mesure de sa progression, il pourrait devenir un élément révolutionnaire dans le domaine de l'IA générative,
révolutionnant à la fois la génération d'images et de texte. Si vous souhaitez en savoir plus sur l'architecture de CM3leon, vous pouvez accéder à l'article de recherche officiel de Meta ici.