Le moteur vocal d'OpenAI: les voix synthétiques en suspens

OpenAI retarde la sortie à grande échelle de Voice Engine, une IA de synthèse vocale, pour répondre aux considérations éthiques et aux risques d'utilisation abusive.
La technologie promet une aide à la lecture et une portée mondiale, mais présente des risques d'usurpation d'identité et de failles de sécurité.
OpenAI met en place des conditions strictes pour l'utilisation de Voice Engine, incluant des exigences de consentement et la divulgation des voix générées par l'IA.

OpenAI dévoile Voice Engine, un modèle d'IA capable de reproduire des voix humaines à partir de courts extraits audio, mais en retarde la sortie complète en raison de préoccupations éthiques et sociétales concernant les abus potentiels.

Le potentiel de Voice Engine

L'évolution de la synthèse vocale a été remarquable, surtout si on la compare au jouet Speak & Spell de 1978, qui captivait le public avec sa voix électronique pionnière. Aujourd'hui, les modèles d'IA utilisant l'apprentissage profond peuvent non seulement produire des voix réalistes, mais aussi imiter des voix existantes avec une précision remarquable à partir de brefs échantillons audio.

Dans ce contexte, la récente présentation de Voice Engine par OpenAI constitue une avancée significative. Le modèle d'IA peut créer une voix synthétique à partir d'un court enregistrement audio, et l'entreprise a partagé des exemples sur son site web. Les utilisateurs peuvent saisir du texte que Voice Engine convertit ensuite en une voix générée par l'IA. Cependant, OpenAI a décidé de ne pas procéder à une diffusion à grande échelle de cette technologie, après avoir initialement prévu un programme pilote pour les développeurs ce mois-ci.

Après mûre réflexion sur les aspects éthiques, l'entreprise a choisi de tempérer ses ambitions pour le moment.

OpenAI a déclaré: « Conformément à notre engagement envers la sécurité de l'IA et à nos directives volontaires, nous avons choisi de présenter cette technologie sans la diffuser largement pour l'instant. Nous pensons que cet aperçu de Voice Engine mettra en évidence son potentiel tout en soulignant l'importance de renforcer les défenses sociétales contre les défis posés par des modèles génératifs de plus en plus convaincants. »

La technologie de clonage vocal n'est pas nouvelle; il existe de nombreux modèles de synthèse vocale par IA depuis 2022, et cette technologie est répandue dans la communauté open source avec des offres comme OpenVoice et XTTSv2. Cependant, la perspective qu'OpenAI rende sa technologie vocale largement disponible est significative, et la réticence de l'entreprise à le faire est sans doute la question la plus saillante.

Les avantages potentiels de la technologie vocale d'OpenAI sont multiples: aide à la lecture avec des voix naturelles, création de contenu mondial tout en conservant les accents natifs, options de parole personnalisées pour les personnes non verbales, et aide aux patients pour retrouver leur voix après des pathologies qui altèrent la parole.

Implications éthiques et sécuritaires

Néanmoins, la possibilité que quiconque puisse cloner une voix avec seulement 15 secondes d'enregistrement soulève des inquiétudes quant à une utilisation abusive. Même sans une diffusion complète de Voice Engine, le clonage vocal a déjà entraîné des problèmes tels que des escroqueries téléphoniques imitant la voix de proches et des appels automatisés utilisant des voix clonées de politiciens comme Joe Biden.

De plus, des chercheurs et des journalistes ont démontré que la technologie de clonage vocal peut compromettre des comptes bancaires utilisant l'authentification vocale, ce qui a conduit le sénateur Sherrod Brown de l'Ohio, président du Comité sénatorial américain des banques, du logement et des affaires urbaines, à s'enquérir des mesures de sécurité mises en place par les grandes banques pour contrer les menaces liées à l'IA.

Consciente des risques potentiels d'une diffusion généralisée, OpenAI met en œuvre un ensemble de règles pour atténuer ces problèmes. L'entreprise mène des tests avec des partenaires sélectionnés depuis l'année dernière, comme HeyGen, qui utilise le modèle pour traduire la voix des locuteurs dans d'autres langues tout en préservant les caractéristiques vocales d'origine.

Partenariats et mesures de précaution

Pour utiliser Voice Engine, les partenaires doivent respecter des conditions interdisant « l'usurpation d'identité de tout individu ou organisation sans consentement ni droit légal ». Ils sont également tenus d'obtenir le consentement éclairé des personnes dont les voix sont reproduites et doivent indiquer clairement que les voix produites sont générées par l'IA. OpenAI intègre également un filigrane dans chaque échantillon vocal pour faciliter le traçage de toute voix générée par son modèle.

Pour le moment, OpenAI présente sa technologie sans s'engager pleinement dans une diffusion à grande échelle, ce qui pourrait potentiellement provoquer des bouleversements sociaux. Au lieu de cela, l'entreprise réajuste sa stratégie marketing pour apparaître comme un gestionnaire responsable de cette technologie émergente.

Le moteur vocal d'OpenAI: les voix synthétiques en suspens

Le potentiel de Voice Engine

Implications éthiques et sécuritaires

Partenariats et mesures de précaution

Brief signal

Surface opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership