- OpenAI está llevando a cabo un evento en el que podría anunciarse un nuevo asistente digital multimodal el lunes.
- Ser multimodal permitiría al asistente usar señales visuales, como reconocer e interpretar un letrero en el exterior, como indicaciones.
- Esto representa una amenaza directa para el Asistente de Google y el recién lanzado Gemini, los asistentes digitales de la compañía.
OpenAI ha estado mostrando a algunos de sus clientes un nuevo modelo de IA multimodal que puede reconocer objetos y conversar contigo, según un informe reciente de The Information, el sitio web de noticias. El medio afirma haberlo visto a través de fuentes anónimas y especula que esto podría ser un adelanto de lo que la compañía presentará más tarde hoy.
Nuevo modelo de IA multimodal
Multimodal se refiere a la capacidad de la IA de procesar algo más que texto como entrada. Este supuesto asistente digital podría conectarse a una cámara, procesar datos del mundo exterior y luego responderte con detalles adicionales sobre lo que observó. Por ejemplo, podrías pedirle a ChatGPT que reconozca y traduzca un letrero cuando apuntes una cámara hacia uno que esté escrito en un idioma distinto al tuyo. Entonces, la IA conversaría contigo.
Si esto te suena familiar, es porque Google Lens, Google Assistant y, más recientemente, Google Gemini ya han logrado esto. ChatGPT ya es capaz de hacerlo, aunque no a través de una única interfaz.
Según informes, el nuevo modelo puede interpretar imágenes y audio más rápido y con mayor precisión que sus modelos separados de transcripción y texto a voz. The Information afirma que el modelo "teóricamente" puede ayudar a los estudiantes con matemáticas o traducir letreros del mundo real y que podría ayudar a los representantes de servicio al cliente a "comprender mejor la entonación de las voces de las personas que llaman o si están siendo sarcásticos".
En otras palabras, un competidor directo de Gemini (y, posteriormente, del Asistente de Google y Siri de Apple).
El modelo puede "responder algunos tipos de preguntas" mejor que el GPT-4 Turbo, pero aún puede cometer errores con confianza, según fuentes cercanas al medio.
Lea también: ¿Cómo funcionan los vehículos autónomos?
Lea también: OpenAI combate la desinformación con colaboración tecnológica
Especulación sobre OpenAI
El desarrollador Ananay Arora compartió una captura de pantalla del código relacionado con llamadas mencionado anteriormente, lo que sugiere que OpenAI podría estar preparando una nueva función integrada de ChatGPT también. Arora también descubrió pruebas de que OpenAI había configurado servidores destinados a chat de audio y video en tiempo real.
Además, Altman declaró que la empresa no está lanzando un nuevo motor de búsqueda impulsado por IA. Sin embargo, si el informe de The Information es preciso, aún podría desinflar las expectativas de la conferencia de desarrolladores I/O de Google.

