OpenAI ahora puede reconocer voz e imágenes

Crédito de imagen: Rawpixel vía Freepik. OpenAI ha introducido una serie de mejoras revolucionarias, incluyendo dos características destacadas: la interacción por voz y el reconocimiento de imágenes. Chateando literalmente con ChatGPT. Una de las actualizaciones más significativas es la incorporación de la interacción por voz a ChatGPT, que permite…

Crédito de imagen: Rawpixel vía Freepik

OpenAI ha introducido una serie de mejoras revolucionarias, incluyendo dos características destacadas: la interacción por voz y el reconocimiento de imágenes.

Chateando literalmente con ChatGPT

Una de las actualizaciones más significativas es la incorporación de la interacción por voz a ChatGPT, que permite a los usuarios participar en conversaciones habladas con la IA. Elija entre una selección de cinco voces sintéticas realistas, cada una diseñada para proporcionar una experiencia conversacional natural. Es como tener una conversación telefónica en tiempo real con un chatbot, con ChatGPT respondiendo a sus preguntas habladas al instante.

La tecnología subyacente se basa en dos modelos distintos. Whisper de OpenAI, un modelo de voz a texto preexistente, convierte las palabras habladas en texto, que luego se alimenta a ChatGPT. Por otro lado, un nuevo modelo de texto a voz transforma las respuestas de ChatGPT en lenguaje hablado.

Durante una demostración reciente, Joanne Jang, gerente de producto en OpenAI, mostró la gama de voces sintéticas. Estas voces fueron meticulosamente elaboradas entrenando el modelo de texto a voz con las voces de actores contratados. OpenAI incluso prevé un futuro en el que los usuarios puedan crear sus propias voces personalizadas. El criterio principal para crear estas voces fue garantizar que fueran agradables y fáciles de escuchar.

Este avance se extiende más allá de ChatGPT, ya que OpenAI está compartiendo su modelo de texto a voz con otras empresas, incluida Spotify. Spotify, por ejemplo, está utilizando esta tecnología de voz sintética para traducir podcasts de celebridades a varios idiomas utilizando versiones sintéticas de las voces de los podcasters.

El reconocimiento de imágenes ya es posible

Otra incorporación innovadora a ChatGPT es el reconocimiento de imágenes. Esta función, que OpenAI había anticipado con la introducción de GPT-4, ahora permite a los usuarios subir imágenes a la aplicación y consultarle sobre el contenido de esas imágenes. Esto significa que puede hacer preguntas a ChatGPT sobre contenido visual.

En una demostración práctica, Raul Puri, un científico que trabaja en GPT-4, subió una foto de un problema de matemáticas y le pidió a ChatGPT una solución. Sorprendentemente, ChatGPT proporcionó los pasos correctos. Los usuarios también han empleado esta función para solucionar problemas técnicos subiendo capturas de pantalla y buscando orientación.

Además, la capacidad de reconocimiento de imágenes de ChatGPT ha sido utilizada por Be My Eyes, una aplicación diseñada para ayudar a personas con visión reducida. Los usuarios pueden subir imágenes y pedirle al chatbot que las describa, ofreciendo un nuevo nivel de independencia.

Sin embargo, OpenAI es plenamente consciente de los riesgos potenciales de estas actualizaciones, especialmente al combinar diferentes modelos de IA. Por ejemplo, los usuarios no pueden preguntar sobre fotos que contengan personas privadas. La empresa reconoce la necesidad de vigilancia para prevenir el uso indebido y se compromete a proteger tanto a los usuarios como a los no usuarios de cualquier daño.

Desafíos futuros para ChatGPT

Estas actualizaciones marcan la rápida evolución de los modelos experimentales de OpenAI hacia productos prácticos. ChatGPT Plus, la versión premium de la aplicación, combina GPT-4 y DALL-E, lo que lo convierte en un competidor formidable para asistentes de voz como Siri, Google Assistant y Alexa. Lo que antes era accesible solo para desarrolladores de software seleccionados, ahora está disponible para todos mediante una suscripción mensual de 20 dólares.

A medida que ChatGPT amplía sus capacidades para “ver, oír y hablar”, hay desafíos a considerar. El reconocimiento de voz puede plantear problemas de accesibilidad para personas con acentos no convencionales. Además, las voces sintéticas conllevan implicaciones sociales y culturales que requieren una mayor exploración.

OpenAI, sin embargo, afirma haber abordado las principales preocupaciones y cree que estas actualizaciones son seguras para su lanzamiento. El viaje para refinar y expandir las capacidades de la IA continúa, con ChatGPT a la cabeza. Si bien ciertamente hay desafíos y preguntas que abordar, esta última actualización representa un paso significativo hacia la creación de asistentes de IA más potentes e interactivos.

OpenAI ahora puede reconocer voz e imágenes

Chateando literalmente con ChatGPT

El reconocimiento de imágenes ya es posible

Desafíos futuros para ChatGPT

Resumen de señal

Huella operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo