Briefing de señal / Tendencias de servicios en la nube globales

OpenAI ahora puede reconocer voz e imágenes

Crédito de imagen: Rawpixel vía Freepik. OpenAI ha introducido una serie de mejoras revolucionarias, incluyendo dos características destacadas: la interacción por voz y el reconocimiento de imágenes. Chateando literalmente con ChatGPT. Una de las actualizaciones más significativas es la incorporación de la interacción por voz a ChatGPT, que permite…

OpenAI ahora puede reconocer voz e imágenes
CategoríaTendencias de servicios en la nube globales

OpenAI Is Now Capable of Voice and Image Recognition es rastreado como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.

RegiónGlobal

OpenAI Is Now Capable of Voice and Image Recognition tiene relevancia de fuentes públicas para las operaciones de red, la gobernanza, el mapeo de dependencias o la estructura del mercado.

Señal principalMercado

OpenAI Is Now Capable of Voice and Image Recognition es rastreado como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.

Dominio principalMercado

Mercado enmarca la evidencia de este archivo.

TemaMercado

Crédito de imagen: Rawpixel vía Freepik. OpenAI ha introducido una serie de mejoras revolucionarias, incluyendo dos características destacadas: la interacción por voz y el reconocimiento de imágenes. Chateando literalmente con ChatGPT. Una de las actualizaciones más significativas es la incorporación de la interacción por voz a ChatGPT, que permite…

ImpactoMedio

OpenAI ahora puede reconocer voz e imágenes conlleva impacto Medio en este archivo.

ConfianzaConfianza limitada (72%)

Varias fuentes públicas

OpenAI Is Now Capable of Voice and Image Recognition es perfilado por BTW Media porque la evidencia publicada lo vincula a la infraestructura de internet, la gobernanza, las dependencias operativas o la visibilidad del mercado.

Crédito de imagen: Rawpixel vía Freepik

OpenAI ha introducido una serie de mejoras revolucionarias, incluyendo dos características destacadas: la interacción por voz y el reconocimiento de imágenes.

Chateando literalmente con ChatGPT

Una de las actualizaciones más significativas es la incorporación de la interacción por voz a ChatGPT, que permite a los usuarios participar en conversaciones habladas con la IA. Elija entre una selección de cinco voces sintéticas realistas, cada una diseñada para proporcionar una experiencia conversacional natural. Es como tener una conversación telefónica en tiempo real con un chatbot, con ChatGPT respondiendo a sus preguntas habladas al instante.

La tecnología subyacente se basa en dos modelos distintos. Whisper de OpenAI, un modelo de voz a texto preexistente, convierte las palabras habladas en texto, que luego se alimenta a ChatGPT. Por otro lado, un nuevo modelo de texto a voz transforma las respuestas de ChatGPT en lenguaje hablado.

Durante una demostración reciente, Joanne Jang, gerente de producto en OpenAI, mostró la gama de voces sintéticas. Estas voces fueron meticulosamente elaboradas entrenando el modelo de texto a voz con las voces de actores contratados. OpenAI incluso prevé un futuro en el que los usuarios puedan crear sus propias voces personalizadas. El criterio principal para crear estas voces fue garantizar que fueran agradables y fáciles de escuchar.

Este avance se extiende más allá de ChatGPT, ya que OpenAI está compartiendo su modelo de texto a voz con otras empresas, incluida Spotify. Spotify, por ejemplo, está utilizando esta tecnología de voz sintética para traducir podcasts de celebridades a varios idiomas utilizando versiones sintéticas de las voces de los podcasters.

El reconocimiento de imágenes ya es posible

Otra incorporación innovadora a ChatGPT es el reconocimiento de imágenes. Esta función, que OpenAI había anticipado con la introducción de GPT-4, ahora permite a los usuarios subir imágenes a la aplicación y consultarle sobre el contenido de esas imágenes. Esto significa que puede hacer preguntas a ChatGPT sobre contenido visual.

En una demostración práctica, Raul Puri, un científico que trabaja en GPT-4, subió una foto de un problema de matemáticas y le pidió a ChatGPT una solución. Sorprendentemente, ChatGPT proporcionó los pasos correctos. Los usuarios también han empleado esta función para solucionar problemas técnicos subiendo capturas de pantalla y buscando orientación.

Además, la capacidad de reconocimiento de imágenes de ChatGPT ha sido utilizada por Be My Eyes, una aplicación diseñada para ayudar a personas con visión reducida. Los usuarios pueden subir imágenes y pedirle al chatbot que las describa, ofreciendo un nuevo nivel de independencia.

Sin embargo, OpenAI es plenamente consciente de los riesgos potenciales de estas actualizaciones, especialmente al combinar diferentes modelos de IA. Por ejemplo, los usuarios no pueden preguntar sobre fotos que contengan personas privadas. La empresa reconoce la necesidad de vigilancia para prevenir el uso indebido y se compromete a proteger tanto a los usuarios como a los no usuarios de cualquier daño.

Desafíos futuros para ChatGPT

Estas actualizaciones marcan la rápida evolución de los modelos experimentales de OpenAI hacia productos prácticos. ChatGPT Plus, la versión premium de la aplicación, combina GPT-4 y DALL-E, lo que lo convierte en un competidor formidable para asistentes de voz como Siri, Google Assistant y Alexa. Lo que antes era accesible solo para desarrolladores de software seleccionados, ahora está disponible para todos mediante una suscripción mensual de 20 dólares.

A medida que ChatGPT amplía sus capacidades para “ver, oír y hablar”, hay desafíos a considerar. El reconocimiento de voz puede plantear problemas de accesibilidad para personas con acentos no convencionales. Además, las voces sintéticas conllevan implicaciones sociales y culturales que requieren una mayor exploración.

OpenAI, sin embargo, afirma haber abordado las principales preocupaciones y cree que estas actualizaciones son seguras para su lanzamiento. El viaje para refinar y expandir las capacidades de la IA continúa, con ChatGPT a la cabeza. Si bien ciertamente hay desafíos y preguntas que abordar, esta última actualización representa un paso significativo hacia la creación de asistentes de IA más potentes e interactivos.

Resumen de señal

  • Señal: OpenAI ahora puede reconocer voz e imágenes
  • Tipo de señal: Tema relacionado
  • Región: Global
  • Clase de mercado: Tendencias de servicios en la nube globales

Superficie operativa

  • Las fuentes publicadas deben identificar a las partes afectadas, la superficie operativa y la exposición de mercado antes de tratar este mapa de tendencia como completo.

Contexto de mercado

  • Relevancia operativa: Medio
  • Horizonte: Próximo trimestre

Qué vigilar

  • Vigilar declaraciones oficiales, actualizaciones regulatorias, exposición de clientes o socios y divulgaciones posteriores.

Briefing para miembros

Contexto de tendencia profundo

Inicia sesión con el nivel de membresía adecuado para desbloquear el briefing completo y las notas de fuente.

Solo para Círculo Estratégico

Círculo Estratégico

Abierto a todos los lectores. Desbloquea briefings de tendencia después de unirte e iniciar sesión.

Unirse al Círculo Estratégico

Solo para Alianza de Liderazgo

Alianza de Liderazgo

Para operadores, inversores y equipos de política que necesitan evidencia relacional, rutas de fallo y notas de fuente. Inicia sesión para desbloquear.

Unirse a la Alianza de Liderazgo
VolverMás cobertura: Tendencias de servicios en la nube globales