- Todos los modelos Gemini son capaces de procesar y usar más que solo palabras. Fueron preentrenados y ajustados con una variedad de audio, imágenes y videos, una amplia base de código y texto en diferentes idiomas.
- Las aplicaciones y modelos de Gemini también son completamente independientes de Imagen 2 y se pueden usar en algunas de las herramientas y entornos de desarrollo de la compañía.
- Dado que los modelos Gemini son multimodales, teóricamente pueden realizar una variedad de tareas multimodales.
Google intenta causar sensación con Gemini, un conjunto emblemático de modelos, aplicaciones y servicios de IA generativa. Pero aunque Gemini parece prometedor en algunos aspectos, como revela nuestra revisión informal, tuvo un desempeño deficiente en otros. Entonces, ¿qué es Gemini? ¿Cómo se usa? ¿Cómo se compara con sus competidores?
¿Qué es Gemini?
Gemini es la familia de modelos GenAI de próxima generación largamente prometida por Google, desarrollada por el laboratorio de investigación de IA de Google, DeepMind, y Google Research. Tiene tres variantes:
- Gemini Ultra, el modelo insignia de Gemini.
- Gemini Pro, un modelo Gemini "vivo".
- Gemini Nano, un modelo más pequeño y "reducido" que se ejecuta en dispositivos móviles como el Pixel 8 Pro.
Todos los modelos Gemini están entrenados para ser "naturalmente multimodales", es decir, capaces de procesar y usar más que solo palabras. Fueron preentrenados y ajustados con una variedad de audio, imágenes y videos, una amplia base de código y texto en diferentes idiomas. Esto diferencia a Gemini de modelos como LaMDA, del propio Google, que está entrenado específicamente con datos de texto. LaMDA no puede entender ni generar nada que no sea texto (por ejemplo, artículos, borradores de correos electrónicos), pero los modelos Gemini sí.
¿Cuál es la diferencia entre la aplicación Gemini y el modelo Gemini?
Una vez más, Google demostró su falta de habilidad para el branding al no dejar claro desde el principio que Gemini era independiente de la aplicación Gemini (anteriormente Bard) tanto en plataformas web como móviles. La aplicación Gemini es solo una interfaz a través de la cual se accede a ciertos modelos; se puede imaginar como un cliente de GenAI de Google.
Como nota al margen, las aplicaciones y modelos de Gemini también son completamente independientes de Imagen 2, el modelo de texto a imagen de Google que se puede usar en algunas de las herramientas y entornos de desarrollo de la compañía. No se preocupe, no es el único confundido.
¿Qué puede hacer Gemini?
Dado que los modelos Gemini son multimodales, teóricamente pueden realizar una variedad de tareas multimodales, desde transcribir voz hasta agregar subtítulos a imágenes y videos, y generar obras de arte. Estas funciones aún no están en etapa de producción (más sobre esto más adelante), pero Google promete todas ellas y más en un futuro cercano. Google quedó muy por debajo de las expectativas en su lanzamiento inicial de Bard. Recientemente, la compañía también publicó un video que pretendía demostrar las capacidades de Gemini, solo para descubrirse que estaba muy manipulado y era más o menos aspiracional.
Lea también: El chatbot Bard de Google recibe la actualización Gemini Pro a nivel global

