El motor de voz de OpenAI: voces sintéticas en suspenso

OpenAI presenta Voice Engine, un modelo de IA que replica voces humanas a partir de clips de audio cortos, pero retrasa su lanzamiento completo debido a preocupaciones éticas y sociales sobre el posible uso indebido. La evolución de la síntesis de voz ha sido notable, y aunque la tecnología promete asistencia de lectura y alcance global, también plantea riesgos de suplantación y brechas de seguridad.

OpenAI retrasa el lanzamiento generalizado de Voice Engine, una IA de texto a voz, para abordar consideraciones éticas y el potencial de uso indebido.
La tecnología promete asistencia de lectura y alcance global, pero plantea riesgos como la suplantación de identidad y brechas de seguridad.
OpenAI implementa términos estrictos para el uso de Voice Engine, incluyendo requisitos de consentimiento y divulgación de voces generadas por IA.

El potencial del motor de voz

La evolución de la síntesis de voz ha sido notable, especialmente en comparación con el juguete Speak & Spell de 1978, que cautivó al público con su pionera voz electrónica. Hoy en día, los modelos de IA que utilizan aprendizaje profundo no solo pueden producir voces realistas, sino también emular las existentes con una precisión notable utilizando muestras de audio breves.

Lea también:La tienda GPT de OpenAI no cumple con las expectativas.

En este contexto, la reciente presentación de Voice Engine por parte de OpenAI es un paso adelante significativo. El modelo de IA puede crear una voz sintética a partir de una grabación de audio corta, y la compañía ha compartido ejemplos en su sitio web. Los usuarios pueden introducir texto, que Voice Engine convierte luego en una salida de voz generada por IA. Sin embargo, OpenAI ha decidido no lanzar la tecnología de forma generalizada, después de haber planeado inicialmente un programa piloto para desarrolladores este mes.

Tras una mayor deliberación sobre los aspectos éticos, la compañía ha optado por moderar sus ambiciones por el momento.

OpenAI declaró: “De acuerdo con nuestro compromiso con la seguridad de la IA y nuestras directrices voluntarias, hemos decidido mostrar, pero no difundir ampliamente esta tecnología en este momento. Creemos que esta vista previa de Voice Engine resaltará su potencial al mismo tiempo que enfatiza la importancia de fortalecer las defensas sociales contra los desafíos que plantean los modelos generativos cada vez más persuasivos.”

Lea también:OpenAI amplía sus vínculos con medios de comunicación asociados para el entrenamiento de chatbots

La tecnología de clonación de voz no es nueva; ha habido numerosos modelos de síntesis de voz con IA desde 2022, y la tecnología prevalece en la comunidad de código abierto con ofertas como OpenVoice y XTTSv2. Sin embargo, la perspectiva de que OpenAI haga que su tecnología de voz esté ampliamente disponible es significativa, y la reticencia de la compañía a hacerlo es posiblemente el problema más relevante.

Las ventajas potenciales de la tecnología de voz de OpenAI son múltiples, incluyendo proporcionar asistencia de lectura con voces de sonido natural, permitir la creación de contenido global manteniendo acentos nativos, ofrecer opciones de habla personalizadas para personas no verbales y ayudar a los pacientes a recuperar su voz después de condiciones que afectan el habla.

Implicaciones éticas y de seguridad

No obstante, la posibilidad de que cualquiera pueda clonar una voz con solo 15 segundos de grabación suscita preocupaciones sobre un posible uso indebido. Incluso sin un lanzamiento completo de Voice Engine, la clonación de voz ya ha provocado problemas como estafas telefónicas que imitan las voces de seres queridos y llamadas automáticas con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz puede comprometer cuentas bancarias con autenticación por voz, lo que llevó al senador Sherrod Brown de Ohio, presidente del Comité de Banca, Vivienda y Asuntos Urbanos del Senado de EE. UU., a preguntar sobre las medidas de seguridad implementadas en los principales bancos para contrarrestar las amenazas impulsadas por la IA.

Reconociendo los riesgos potenciales de una difusión generalizada, OpenAI está implementando un conjunto de reglas para mitigar estos problemas. Ha estado realizando pruebas con socios selectos desde el año pasado, como HeyGen, que utiliza el modelo para traducir las voces de los hablantes a otros idiomas preservando las características vocales originales.

Asociación y medidas de precaución

Para utilizar Voice Engine, los socios deben cumplir con los términos que prohíben “la suplantación de cualquier individuo u organización sin consentimiento o derecho legal”. También deben obtener el consentimiento informado de las personas cuyas voces se están replicando y deben indicar claramente que las voces producidas son generadas por IA. OpenAI también está incrustando una marca de agua en cada muestra de voz para facilitar el rastreo de cualquier voz generada por su modelo.

Por el momento, OpenAI está mostrando su tecnología sin comprometerse por completo con un lanzamiento amplio, lo que podría conducir potencialmente a una agitación social. En cambio, la compañía está recalibrando su estrategia de marketing para aparecer como un administrador responsable de esta tecnología emergente.

El motor de voz de OpenAI: voces sintéticas en suspenso

El potencial del motor de voz

Implicaciones éticas y de seguridad

Asociación y medidas de precaución

Resumen de señal

Huella operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo