• Un modelo llamado “Voice Engine” puede esencialmente duplicar el habla de alguien basándose en una muestra de audio de 15 segundos, según una publicación del blog de OpenAI que comparte los resultados de una prueba a pequeña escala de la herramienta.
  • “Estos despliegues a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en diversas industrias”, dijo OpenAI en su publicación del blog.
  • OpenAI es una herramienta estrictamente controlada hasta que se implementen salvaguardas para frustrar las falsificaciones de audio destinadas a engañar a los oyentes.

OpenAI ha desarrollado una plataforma de generación de texto a voz llamada Voice Engine, que crea voz sintética basada en un fragmento de 15 segundos de la voz de alguien.

La herramienta de clonación de voz

El habla generada por inteligencia artificial puede leer indicaciones de texto basadas en comandos en el mismo idioma del hablante o en varios otros idiomas.

“Estos despliegues a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en diversas industrias”, dijo OpenAI en su publicación del blog.

En estas muestras publicadas por OpenAI, se pueden escuchar contenidos de narración preescritos, así como “respuestas personalizadas en tiempo real” escritas para GPT-4.

OpenAI dijo que comenzó a desarrollar un motor de voz a fines de 2022, y la tecnología ya proporciona voces preestablecidas para las API de texto a voz y la función de lectura en voz alta de ChatGPT.

Lea también: OpenAI amplía sus vínculos mediáticos con socios de noticias para el entrenamiento de chatbots

Problemas de seguridad

OpenAI dice que está trabajando con socios estadounidenses e internacionales del gobierno, medios, entretenimiento, educación, sociedad civil y más para asegurarse de incorporar sus comentarios a medida que construyen.

Los investigadores de desinformación temen el uso indebido desenfrenado de aplicaciones impulsadas por IA en un año electoral crucial, gracias a la proliferación de herramientas de clonación de voz, que son baratas, fáciles de usar y difíciles de rastrear.

OpenAI reconoce estos problemas y dice que “debido al potencial de abuso del habla sintética, está adoptando un enfoque cauteloso e informado para una distribución más amplia”.

Hace unos meses, un consultor político que trabajaba para la campaña presidencial del rival demócrata de Joe Biden admitió estar detrás de llamadas telefónicas automatizadas que se hacían pasar por el líder estadounidense.

El incidente causó alarma entre los expertos que temen un diluvio de desinformación deepfake impulsada por IA en la carrera por la Casa Blanca de 2024, así como en otras elecciones clave en todo el mundo este año.

“Hemos implementado un conjunto de medidas de seguridad, incluida la marca de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se está utilizando”, dijo OpenAI.