• Meta Platforms a publié les premières versions de son dernier grand modèle de langage, Llama 3, avec de nouvelles capacités de codage informatique et la capacité de traiter des commandes d'images. Les modèles seront intégrés à l'assistant virtuel Meta AI, que la société présente comme le plus sophistiqué de ses pairs gratuits.
  • Les versions de Llama 3 prévues pour être publiées dans les mois à venir seront également capables de « multimodalité », ce qui signifie qu'elles peuvent générer à la fois du texte et des images, alors que Meta s'efforce de rattraper le leader du marché de l'IA générative, OpenAI.
  • Le modèle Llama 2 est incapable de comprendre le contexte de base, Meta réduit ces problèmes dans Llama 3 en utilisant des « données de haute qualité » pour permettre au modèle de reconnaître les nuances. La demande de données pour les modèles d'IA générative est devenue une source majeure de tension dans le développement de la technologie.

Meta Platforms a publié les premières versions de son dernier grand modèle de langage, Llama 3, avec de nouvelles capacités de codage informatique et la capacité de traiter des commandes d'images. Le générateur d'images intégré mettra à jour les images en temps réel pendant que les utilisateurs saisissent des invites, alors qu'il s'efforce de rattraper le leader du marché de l'IA générative, OpenAI.
Voir la vidéo explicative du PDG Mark Zuckerberg.

Viser un modèle d'IA doté de multimodalité

Les versions de Llama 3 prévues pour être publiées dans les mois à venir seront également capables de « multimodalité », ce qui signifie qu'elles peuvent générer à la fois du texte et des images, bien que pour l'instant le modèle ne produise que du texte, a déclaré Chris Cox, chef de produit chez Meta, dans une interview.

Les modèles seront intégrés à l'assistant virtuel Meta AI, que l'entreprise présente comme le plus sophistiqué de ses pairs gratuits. Un raisonnement plus avancé, comme la capacité d'élaborer des plans plus longs en plusieurs étapes, suivra dans les versions ultérieures.

Lire aussi: Meta dévoile une puce MTAI « tout-en-un » 3 fois plus rapide que la précédente

L'inclusion d'images dans la formation de Llama 3 améliorerait une mise à jour déployée cette année pour les lunettes intelligentes Ray-Ban Meta, un partenariat avec le fabricant de lunettes Essilor Luxoticca, permettant à Meta AI d'identifier les objets vus par le porteur et de répondre à des questions à leur sujet, a déclaré Chris Cox.

Crise des données pour l'entraînement des modèles d'IA

Le modèle Llama 2 est incapable de comprendre le contexte de base, Meta réduit ces problèmes dans Llama 3 en utilisant des « données de haute qualité » pour permettre au modèle de reconnaître les nuances. Le rival Google a rencontré des problèmes similaires et a récemment suspendu l'utilisation de son outil de génération d'images Gemini AI après avoir été critiqué pour des représentations inexactes de personnages historiques.

Le PDG de Meta, Mark Zuckerberg, a déclaré que la plus grande version de Llama 3 est actuellement entraînée avec 400 milliards de paramètres et obtient déjà un score de 85 au Massive Multitask Language Understanding, citant des mesures utilisées pour évaluer la force et la performance des modèles d'IA.

Lire aussi: Un représentant américain propose un projet de loi obligeant les entreprises d'IA à divulguer les données d'entraînement

La demande vorace de données pour les modèles d'IA générative est devenue une source majeure de tension dans le développement de la technologie. Meta n'a pas donné de détails sur les ensembles de données utilisés, bien qu'elle ait fourni à Llama 3 sept fois plus de données que Llama 2, et utilisé des données « synthétiques » ou créées par l'IA pour améliorer des domaines tels que le codage et le raisonnement.