El interés por los modelos de IA generativa se ha disparado, impulsado por los avances en el procesamiento del lenguaje
natural y la generación de imágenes.
El interés por los modelos de IA generativa se ha disparado, impulsado por los avances en el procesamiento del lenguaje
natural y la generación de imágenes. META, un actor destacado en el ámbito de la investigación en IA,
ha presentado CM3leon, un innovador modelo multimodal. Multimodal significa
que la IA es capaz de generar tanto texto a imagen como imagen a texto.
El enfoque único de CM3leon combina una receta derivada de modelos de lenguaje solo texto.
El modelo de Meta empleará un preentrenamiento a gran escala aumentado con recuperación y un ajuste fino
multitarea supervisado.
Mejor rendimiento en la generación de imágenes
A pesar de haberse entrenado con cinco veces menos recursos computacionales que los métodos anteriores
basados en transformadores, CM3leon alcanza un rendimiento de vanguardia en la generación de texto a
imagen. Cabe destacar que exhibe la versatilidad de los modelos autorregresivos manteniendo
bajos costos de entrenamiento e inferencia eficiente.
Este modelo basado en tokenización va más allá de los enfoques convencionales de texto a imagen. Puede
generar secuencias complejas de texto e imágenes condicionadas a contenido arbitrario.
A diferencia de otros modelos especializados en generación de imágenes, el ajuste fino de instrucciones
multitarea a gran escala de CM3leon mejora significativamente el rendimiento en diversas tareas
de visión-lenguaje, como la generación de pies de imagen y la respuesta visual a preguntas.
Obtención ética de datos de imagen
Meta anunció que adopta un enfoque ético en la obtención de datos de imagen, utilizando únicamente
imágenes con licencia de Shutterstock para evitar problemas relacionados con la propiedad y la atribución.
Esta metodología socialmente responsable diferencia a CM3leon de sus competidores.
En una comparación con puntos de referencia ampliamente utilizados, CM3leon logra una impresionante puntuación
FID de 4.88, superando al modelo Parti de Google y estableciendo un nuevo estándar para la generación de
texto a imagen. Una puntuación de Distancia de Incepción Fréchet (FID) de 0.0 indica una
puntuación perfecta. CM3leon exhibe la capacidad de generar objetos compositivos intrincados, como se evidencia
en ejemplos como un cactus en maceta con gafas de sol y sombrero.
Aún quedan desafíos por delante
Aunque la promesa de CM3leon es innegable, hay algunos desafíos que deben abordarse. Como con cualquier
modelo de IA, los posibles sesgos en los datos representan una preocupación, ya que la salida del modelo puede
reflejar sesgos presentes en sus datos de entrenamiento.
Además, aunque CM3leon puede generar imágenes de alta calidad, los resultados pueden variar dependiendo
de la complejidad de las instrucciones de entrada y la calidad de los datos de entrenamiento.
Asimismo, CM3leon aún requiere importantes recursos computacionales, lo que podría
limitar la accesibilidad para organizaciones más pequeñas e individuos. Aunque
demuestra capacidades de generalización notables, puede tener limitaciones para
generar contenido completamente novedoso fuera de sus datos de entrenamiento.
Aunque CM3leon muestra un gran potencial, su disponibilidad actual se limita a fines de
investigación. A medida que avance, podría convertirse en un cambio de juego en el campo de la IA generativa,
revolucionando la generación de imágenes y texto por igual. Si desea leer sobre la arquitectura de CM3leon
de primera mano, puede acceder aquí al artículo de investigación oficial de Meta.

