- Una entrevista con Steve Jobs llegó a las ondas recientemente, o al menos, una reencarnación de su voz lo hizo, mostrando cómo ha avanzado el doblaje con IA.
- El doblaje con IA puede reducir riesgos, costos y mejorar la productividad para las empresas, pero también plantea controversias y desafíos éticos y regulatorios.
- El futuro del doblaje necesita equilibrar la tecnología con la esencia de la actuación humana.
La intersección de la IA y las prácticas tradicionales en la industria del entretenimiento ha provocado debates sobre el futuro del doblaje. Sin embargo, persisten las preocupaciones sobre el sistema de compra de derechos de doblaje y la capacidad de la IA para transmitir el tono y las emociones humanas.
El doblaje con IA ha entrado al mercado
En todo el mundo, es innegable que el doblaje con IA ha comenzado a causar sensación en el mercado, con muchas empresas incluso obteniendo ganancias decentes. Algunos de los principales proveedores de la industria incluyen PlayHT, Captions y Rask AI.

PlayHT
Este año, el primer episodio de un podcast llamadoPodcast.aipresentó al presentador del podcast discutiendo sus días de universidad, sus puntos de vista sobre las computadoras, su estado laboral y sus creencias, entre otras cosas, conSteve Jobs, el fundador de Apple Group.
El podcast, que trae a Jobs de vuelta de la muerte, es muy similar a la voz y entonación de Jobs, según PlayHT, que está trabajando en una tecnología de clonación de sonido que permitirá a individuos y empresas crear contenido de audio a escala. El 23 de noviembre, lanzaron un modelo de IA de voz llamadoOn-Premise. Afirman que esta es la herramienta de generación de voz con la latencia más rápida, alta seguridad y disponibilidad ilimitada disponible en cualquier modelo hoy en día.
Mahmoud Felfel, fundador de PlayHT, dijo: “Construimos PlayHT como una plataforma para el habla generativa y la clonación de voz. Comenzamos construyendo el editor de voz más sofisticado para ayudar a nuestros clientes a tener control total sobre sus voces generadas. Luego invertimos en construir el primer Modelo de Lenguaje Grande para Síntesis de Voz y Clonación de Voz y logramosresultados SOTAen calidad de voz y expresividad.”
Captions
Captions, una startup de video con sede en Nueva York, ofrece servicios como subtitulado de texto, edición y efectos especiales para creadores de contenido en redes sociales. Se expandió a servicios de traducción en 2022 e introdujo el Doblaje con IA en 2023. Con características innovadoras como AI Eye Contact y subtítulos automáticos generados por IA, Captions tiene más de 100.000 usuarios diarios y cinco millones de creadores. A pesar de los altos costos de entrenamiento de IA, la empresa es rentable y ha recaudado $40 millones en financiamiento. Su última innovación,Lipdub, ha sido adoptada por entidades importantes como ESPN y el fundador de Twitch, Justin Kan.
Rask AI
Rask AI, una herramienta de localización de video y audio impulsada por IA, traduce contenido a más de 130 idiomas y ofrece una función de clonación de voz. Lanzada el 20 de marzo de 2023 y ganando Producto del Día en Product Hunt a principios de abril, ahora tiene más de 750.000 usuarios en todo el mundo. Los proyectos clave incluyen eldoblaje de la película francesa ‘THE LEGEND OF AKAM’al portugués para su lanzamiento en Brasil. Además, PodcastOne está utilizando Rask AI para traducir su biblioteca de podcasts al español, comenzando con el podcast debut de Barbara Schroeder‘Bad Bad Thing’.
A través de procesos como traducción, adaptación cultural, locución o doblaje, Rask AI puede simplificar enormemente el proceso de localización de contenido de video, ayudando a empresas y creadores a producir videos localizados de manera eficiente y rentable.
Lea también:Del búlgaro al zulú: Amazon Transcribe ahora puede reconocer 100 idiomas
Tecnología actualmente utilizada
De hecho, se han logrado avances significativos en la aplicación de la IA en el campo del doblaje, que actualmente se centra en dos tecnologías principales. Casi todos los modelos de voz de IA de las empresas se basan en la I+D de estas dos tecnologías básicas.
Una es la tecnología deConversión de Voz(VC) que permite a la IA convertir texto en audio ajustando el timbre, tono, idioma y otros atributos mientras se mantiene el contenido original, sin embargo, no puede adaptarse a interacciones entre varias personas o expresiones emocionales. Esta tecnología es similar a la lectura en voz alta y es apropiada para escenarios que requieren únicamente un cambio en las características de la voz conservando el contenido original.
En segundo lugar, la tecnologíaTexto a Voz(TTS) es capaz de convertir texto escrito en habla interactiva. En los últimos años, la tecnología TTS ha podido mostrar expresiones emocionales, haciendo que el doblaje con IA sea más “humano” y ya no transmita una fría sensación mecánica.
Implicaciones para las prácticas de locución tradicionales.

1. Mejorar la eficiencia y reducir costos
“Al aprovechar Rask AI, las empresas pueden acelerar sus esfuerzos de localización, llegar a una audiencia más amplia y mejorar su reconocimiento de marca en los mercados globales.”
Maria Chmir, CEO y fundadora de Rask AI
La integración de la IA en el doblaje mejora la eficiencia del trabajo y reduce los costos de producción al analizar rápidamente las huellas de voz para obtener líneas precisas y contextualmente apropiadas. Esto permite un doblaje más rápido y la creación de múltiples versiones en diferentes idiomas, lo que lleva a un cambio de paradigma en el enfoque de las empresas de producción hacia los proyectos de doblaje.
Rikki Lee Travolta, un talentoso actor, dijo: “La mayor ventaja de la IA en la locución es el costo. Un actor de locución sindicalizado va a costar una tarifa por hora. Añade el costo de los ingenieros y el alquiler del estudio además de eso. Con la IA, eliminas la mayoría o todos esos costos.”
Maria Chmir, CEO y fundadora de Rask AI, también afirma que la IA es una herramienta realmente útil para contenido o empresas que salen al extranjero. “Al aprovechar Rask AI, las empresas pueden acelerar sus esfuerzos de localización, llegar a una audiencia más amplia y mejorar su reconocimiento de marca en los mercados globales.”
2. Reducción de riesgos
El doblaje con IA puede mitigar los riesgos para las grandes empresas, como lo demuestra el juego de Mihoyo “Tears of Themis”. Cuando un actor de voz estuvo involucrado en una disputa,Mihoyoutilizó síntesis profunda para aprender y replicar la voz del actor a partir de grabaciones anteriores, permitiendo el doblaje automático. Esta solución preservó la experiencia de juego sin necesidad de reemplazar al actor o dejar al personaje sin voz.
3. Promoviendo la difusión en el extranjero
La falta de sincronización entre los movimientos de los labios y la voz en el contenido doblado es un gran inconveniente, que potencialmente contribuye a su impopularidad en los países de habla inglesa. La IA se puede usar para modificar los movimientos de los labios de un personaje, haciendo que el contenido localizado sea más auténtico y atractivo para los espectadores. Chmir dijo en la entrevista: “Al aprovechar Rask AI, las empresas pueden acelerar sus esfuerzos de localización, llegar a una audiencia más amplia y mejorar su reconocimiento de marca en los mercados globales.”
4. Pánico por la IA reemplazando a los humanos
“Ahora estamos tan asustados como cuando llegó el COVID-19; no sabemos qué va a pasar.”
Daniel Hamvas, actor de voz
La aplicación de la inteligencia artificial en la locución no se limita a una sola industria; las empresas están explorando la posibilidad de usar IA para sintetizar diferentes líneas. Tradicionalmente, las empresas de cine, televisión y juegos seleccionan actores de voz adecuados con meses de anticipación, proporcionan el texto y graban fuera de línea. Los actores de voz establecidos cobran en función del número de palabras y el tiempo dedicado a la grabación. Sin embargo, la llegada de la inteligencia artificial ha traído una nueva dinámica.
Algunas empresas tienden a grabar las voces de los actores de voz y luego usar IA para sintetizar líneas adicionales, mientras que otras incluso intentan comprar las voces de los actores de voz en un trato único para crear una propiedad intelectual de voz que sea exclusiva de la empresa.
Esto plantea preguntas sobre el futuro de la industria de la locución. El renombrado actor de voz Daniel Hamvas ha doblado muchos personajes en contenido de doblaje húngaro a lo largo de los años y ahora es el líder del sindicato de trabajadores de doblaje húngaro.Está a la vanguardia de la batalla, oponiéndose ferozmente al uso del doblaje con IA para proteger a los profesionales cuyos medios de vida están amenazados por la automatización. Hamvas expresó sus preocupaciones, diciendo: “Ahora estamos tan asustados como cuando llegó el COVID-19; no sabemos qué va a pasar.”
Desafíos y controversias
“Ningún número de algoritmos puede crear las imperfecciones que hacen perfecta una actuación humana. La IA puede hacer una buena imitación, pero un imitador de Elvis nunca será Elvis.”
Rikki Lee Travolta, un talentoso actor
A pesar de los avances en IA, puede tener dificultades para capturar la profundidad y autenticidad que los actores humanos aportan a sus actuaciones. El riesgo de que el doblaje pierda el toque humano plantea preocupaciones sobre la participación de la audiencia y la experiencia de visualización en general.
Phil Siegel, fundador de la organización sin fines de lucro de IACAPTRS, afirmó que: “Los modelos son capaces de identificar los tonos característicos de la voz; pueden hacerlo con muy pocos datos, pero si le das varias oraciones de una voz, probablemente podría producir una voz que la mayoría de la gente no podría distinguir de la persona real.”
Travolta también enfatiza que la IA no puede reemplazar a los humanos después de todo. “Y espero que la IA continúe avanzando. Pero nunca será humana. Ningún número de algoritmos puede crear las imperfecciones que hacen perfecta una actuación humana. La IA puede hacer una buena imitación, pero un imitador de Elvis nunca será Elvis.”, dijo Travolta.
Protección de los derechos de autor del sonido
“Las regulaciones más importantes, además de los problemas legales y éticos anteriores, es que hay un consenso creciente de que el contenido generado por IA debe identificarse como tal. Tanto qué herramientas se usaron como qué insumos de ‘materia prima’.”
Phil Siegel, fundador de la organización sin fines de lucro de IACAPTRS
Cómo el doblaje con IA aborda los posibles problemas éticos y legales en el modelado sigue siendo un enigma. La mayoría de las empresas actualmente garantizan el cumplimiento y la seguridad de la captura de voz. Las máquinas solo pueden reproducir texto que ha sido leído por personas en persona, lo que también requiere la autorización de la persona misma. Siegel también destaca la importancia de la marca de agua: “Las regulaciones más importantes, además de los problemas legales y éticos anteriores, es que hay un consenso creciente de que el contenido generado por IA debe identificarse como tal.
Tanto qué herramientas se usaron como qué insumos de ‘materia prima’. Así que doblar la voz de Taylor Swift con Speechify tendría una marca de agua de identificación específica.”
Desafortunadamente, hasta ahora hay una brecha en la protección legal en el área de los derechos de autor del sonido de IA. Cómo definir la infracción de sonido es igualmente muy vago. Algunos profesionales del sonido ahora son conscientes del valor del sonido, pero ¿son las personas comunes que usan software cansado conscientes de los riesgos detrás de la licencia de sonido?
“Porque la mayoría de la legislación actual se basa en realidad en el miedo irracional, y somos una industria que necesita regularse a sí misma en primer lugar.”
Maria Chmir, CEO y fundadora de Rask AI
Como desarrolladora de productos de doblaje con IA, Chmir también expresó su actitud: “Estamos comprometidos a trabajar con empresas de medios, gobiernos e instituciones de investigación de IA para crear conciencia y establecer estándares éticos en torno a la autenticidad del contenido en IA.” Así que estamos al principio, y es realmente importante ser abiertos sobre lo que está sucediendo. Porque la mayoría de la legislación actual se basa en realidad en el miedo irracional, y somos una industria que necesita regularse a sí misma en primer lugar.
Nuestros productos hacen que la tecnología de IA sea accesible para los creadores al tiempo que limitan el potencial de uso irresponsable.”
Factores humanos en el doblaje

La locución es más que un simple proceso técnico. Es una forma de arte que se basa en la capacidad del actor para transmitir eficazmente la emoción y los matices. Los actores humanos aportan una profundidad única de experiencia y comprensión cultural a sus actuaciones, lo que les permite adaptarse a los matices de diferentes personajes y escenas. Si bien la IA puede imitar los patrones del habla humana, la pregunta sigue siendo si realmente puede replicar la profundidad emocional y la conexión que un actor humano establece con la audiencia.
El futuro de la locución: encontrando el equilibrio

A medida que la industria integra la IA en las prácticas de locución, encontrar un equilibrio entre la innovación tecnológica y preservar la esencia de la actuación humana se vuelve crítico. La colaboración entre la IA y los actores de voz humanos puede proporcionar un punto medio donde la eficiencia de la IA pueda complementar las actuaciones matizadas de los actores humanos. Este enfoque híbrido no solo aceleraría el proceso de doblaje, sino que también aseguraría que la resonancia emocional y las diferencias culturales no se sacrifiquen en la búsqueda de la eficiencia.
“Ciertos expertos creen que el doblaje con IA podría reemplazar a todos en la industria, aunque está lejos de la realidad. Es más exacto llamar a la etapa actual como co-creación”, también dijo Chmir.

