- Rivalizando con Gemini de Google: el extenso rango de parámetros de MM1 compite con las versiones iniciales de los modelos de IA de Google.
- Aprendizaje en contexto innovador: la capacidad de MM1 para entender y responder a nuevas consultas basándose en el contexto conversacional actual.
Apple ha revelado MM1, una nueva generación de modelos multimodales que pueden interpretar e interactuar sin problemas tanto con imágenes como con texto, preparando el terreno para una experiencia más intuitiva y receptiva deSiri e iMessage.
MM1: IA multimodal pionera
Apple ha presentado MM1, un innovador conjunto de modelos de IA multimodal que son expertos en procesar tanto imágenes visuales como datos textuales. Estos modelos cuentan con una impresionante cantidad de parámetros de hasta 30 mil millones, lo que los convierte en un digno rival para las primeras iteraciones de los modelos Gemini de Google.
Lea también:Anthropic afirma que su último modelo de IA supera a GPT-4
Los modelos MM1 están equipados con la capacidad de interpretar y ejecutar instrucciones que involucran elementos tanto visuales como textuales. Por ejemplo, la IA puede calcular el costo combinado de dos bebidas analizando la información de precios mostrada en un menú.
Una de las características destacadas de MM1 es su capacidad de aprendizaje en contexto. Esto permite al modelo comprender y abordar consultas basándose en la información contextual presente en el discurso en curso, sin necesidad de reentrenamiento o ajuste fino específico para cada nueva consulta o tarea.
Esta capacidad de aprendizaje en contexto podría potencialmente permitir al modelo generar descripciones detalladas de imágenes o responder a preguntas sobre el contenido de indicaciones basadas en fotos, incluso si no ha sido expuesto previamente a contenido similar.
Lea también:Apple mostrará los 'avances de visionOS' en la WWDC 2024
Mejorando la experiencia de usuario
En cuanto a la mejora de la experiencia de usuario, las habilidades de comprensión multimodal de MM1 podrían ser aprovechadas por Apple para elevar el rendimiento de su asistente de voz, Siri. Esto permitiría a Siri proporcionar respuestas a preguntas que están basadas en datos visuales, como aquellas basadas en imágenes. Además, MM1 podría ayudar a interpretar el contexto de imágenes y mensajes de texto compartidos a través de iMessage, proporcionando así a los usuarios sugerencias más pertinentes para las respuestas.