- Rivalisant avec Google Gemini: l'étendue des paramètres de MM1 rivalise avec les premières versions des modèles d'IA de Google.
- Apprentissage contextuel innovant: la capacité de MM1 à comprendre et à répondre à de nouvelles requêtes en fonction du contexte conversationnel actuel.
Apple a dévoilé MM1, une nouvelle génération de modèles multimodaux capables d'interpréter et d'interagir de manière transparente avec les images et le texte, ouvrant la voie à une expérienceSiri et iMessageplus intuitive et réactive.
MM1: l'IA multimodale pionnière
Apple a présenté MM1, une suite innovante de modèles d'IA multimodaux capables de traiter à la fois des images visuelles et des données textuelles. Ces modèles affichent un nombre impressionnant de paramètres, jusqu'à 30 milliards, ce qui en fait un concurrent sérieux pour les premières itérations des modèles Gemini de Google.
À lire aussi:Anthropic affirme que son dernier modèle d'IA surpasse GPT-4
Les modèles MM1 sont capables d'interpréter et d'exécuter des instructions impliquant à la fois des éléments visuels et textuels. Par exemple, l'IA peut calculer le coût combiné de deux boissons en analysant les informations de prix affichées sur un menu.
L'une des caractéristiques remarquables de MM1 est sa capacité d'apprentissage contextuel. Cela permet au modèle de comprendre et de répondre à des demandes en se basant sur les informations contextuelles présentes dans le discours en cours, sans nécessiter de réentraînement spécifique ou de réglage fin pour chaque nouvelle requête ou tâche.
Cette capacité d'apprentissage contextuel pourrait potentiellement permettre au modèle de générer des descriptions détaillées d'images ou de répondre à des questions sur le contenu de messages basés sur des photos, même s'il n'a pas été précédemment exposé à un contenu similaire.
À lire aussi:Apple présentera les « avancées de visionOS » à la WWDC 2024
Améliorer l'expérience utilisateur
En termes d'amélioration de l'expérience utilisateur, les compétences de compréhension multimodale de MM1 pourraient être exploitées par Apple pour élever les performances de son assistant vocal, Siri. Cela permettrait à Siri de fournir des réponses à des questions fondées sur des données visuelles, telles que celles basées sur des images. De plus, MM1 pourrait aider à interpréter le contexte des images et des messages texte partagés via iMessage, offrant ainsi aux utilisateurs des suggestions de réponses plus pertinentes.