- Certains géants de la technologie auraient utilisé les transcriptions de YouTube sans autorisation pour entraîner des modèles d'IA.
- La légalité de l'utilisation de bases de données non autorisées pour entraîner l'IA est indéterminée, ce qui pourrait entraver le développement futur de l'IA.
NOTRE AVIS
Le développement de la technologie de l'IA est certes prometteur, mais sa création et son avancement reposent sur des bases de données. Le manque de transparence de ces bases de données est inévitablement source de controverses. Les parties lésées et les entreprises en infraction ont souvent des points de vue divergents, sans qu'aucune résolution définitive ne soit en vue. Cette situation est comme une épée de Damoclès suspendue au-dessus de l'industrie; si elle n'est pas traitée, elle entravera inévitablement le développement continu de l'IA.
— Yasmine luo, journaliste BTW
Que s'est-il passé?
Certaines grandes entreprises technologiques sont accusées d'utiliser des transcriptionsYouTubesans autorisation pour entraîner leurs modèles d'IA.
SelonProof News,EleutherAI, une organisation à but non lucratif, a créé un ensemble de données contenant des transcriptions de plus de 48 000 chaînes YouTube, y compris du contenu de créateurs de premier plan comme Marques Brownlee et MrBeast, ainsi que de grands éditeurs commeThe New York Times, laBBCetABC News. D'après une nouvelle enquête de Proof News,Apple,NVIDIA,Anthropicet d'autres grandes entreprises technologiques ont utilisé cet ensemble de données pour entraîner leurs modèles d'IA.
Neal Mohan, PDG de YouTube, a précédemment déclaré: “Les entreprises qui utilisent les données de YouTube pour entraîner des modèles d'IA violeraient les conditions d'utilisation de la plateforme.”
Marques Brownlee, un célèbre YouTubeur, a publié sur les réseaux sociaux: “Apple a obtenu des données pour son IA auprès de plusieurs entreprises. L'une d'elles a aspiré des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes. Techniquement, Apple évite d'être en tort ici car ce n'est pas elle qui aspire les données. Mais cela va être un problème évolutif pendant longtemps.”
Actuellement, Apple, NVIDIA, Anthropic et EleutherAI n'ont pas fait de commentaires sur l'affaire.
À lire aussi:PDG soutenu par Warburg envisage une expansion de centres de données axés sur l'IA en Asie
À lire aussi:Le projet ‘Strawberry’ d'OpenAI fait progresser le raisonnement de l'IA
Pourquoi c'est important
La croissance rapide des modèles d'IA, bien que prometteuse pour façonner l'avenir, a également soulevé de nombreuses questions juridiques non résolues. Les récentes accusations contre les géants de la technologie ajoutent à ces préoccupations. Depuis sa création, la technologie de l'IA est confrontée au problème des bases de données d'entraînement non transparentes. Si les données d'entraînement de l'IA ne proviennent pas de sources appropriées, il existe un risque de violation des droits d'auteur ou des droits sur les bases de données.
Cependant, il reste à déterminer si les entreprises concernées feront face à des poursuites judiciaires.The Vergea mené une enquête auprès d'avocats, d'analystes et d'employés de startups d'IA, révélant des avis partagés sur cette question.
“Je vois des gens des deux côtés extrêmement confiants dans leurs positions, mais la réalité est que personne ne sait”, déclare Baio, un observateur de l'IA.
Bien que les entreprises ou les individus concernés affirment que c'est illégal, leurs demandes ont peu de chances d'être traitées, comme en témoigne l'absence de réponse des entreprises accusées.
Si ce problème n'est pas résolu, il pourrait un jour entraver le développement continu de la technologie de l'IA.

