Gemini 1.5 Pro de Google ahora puede oír

Capaz de procesar texto, código, video y, ahora, secuencias de audio cargadas, incluido el audio de videos, Gemini 1.5 Pro puede escuchar, analizar y extraer información sin un registro escrito correspondiente. Gemini 1.5 Pro es el bot renombrado de Google, anteriormente llamado Bard, y es la iteración más reciente del modelo disponible para un número limitado de desarrolladores desde febrero.

La actualización de Google para Gemini 1.5 Pro le da al modelo la capacidad de oír. El modelo ahora puede escuchar archivos de audio cargados y generar información a partir de contenido como llamadas de resultados o audio de videos sin necesidad de recurrir a una transcripción escrita. Google también está haciendo Gemini 1.5 Pro disponible como vista previa pública para aquellos con acceso a Vertex AI. Capaz de procesar texto, código, video y, ahora, secuencias de audio cargadas, incluido el audio de videos, Gemini 1.5 Pro puede escuchar, analizar y extraer información sin un registro escrito correspondiente.

Gemini 1.5 Pro es el bot renombrado de Google, anteriormente llamado Bard, y Gemini 1.5 Pro es la iteración más reciente del modelo, puesta a disposición de un número limitado de desarrolladores en febrero de este año. Google también anunció que pondrá Gemini 1.5 Pro a disposición del público por primera vez a través de su plataforma para construir aplicaciones de IA, Vertex AI. Gemini 1.5 Pro se anunció por primera vez en febrero. Google compartió detalles de la actualización en su conferencia Cloud Next en Las Vegas.

Después de llamar a Gemini Ultra LLM, que impulsa su chatbot avanzado Gemini, el modelo más potente de la familia Gemini, Google ahora llama a Gemini 1.5 Pro su modelo generativo más potente. La compañía agrega que esta versión tiene mejores capacidades de aprendizaje y no requiere ajustes adicionales del modelo. Gemini 1.5 Pro está documentado públicamente para usuarios sin acceso a Vertex AI. Lea también: La herramienta de clonación de voz de OpenAI imita su voz con una muestra de 15 segundos. Modelo de generación de texto a imagen Imagen 2. Gemini 1.5 Pro no es el único gran modelo de IA que recibe una actualización de Google.

Imagen 2 es un modelo de generación de texto a imagen que ayudará a mejorar las capacidades de generación de imágenes de Gemini y también agregará correcciones y reparaciones que permitirán a los usuarios agregar o eliminar elementos de una imagen. Muchas de las nuevas funciones de Imagen, especialmente en pintura y expansión, han sido parte de otros modelos de texto a imagen como Stable Cascade de Stability AI y Generative AI de Getty by iStock, sin mencionar la disponibilidad más amplia para los consumidores en los nuevos teléfonos Samsung Galaxy.

Gemini 1.5 Pro de Google ahora puede oír

Resumen de señal

Huella operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo