Modèles IA entraînés sur YouTube par Google et OpenAI

Modèles d'IA entraînés sur des vidéos YouTube par Google et OpenAI

OpenAI et Google se sont tournés vers la transcription de vidéos YouTube pour perfectionner leurs modèles d'IA, risquant d'enfreindre les droits d'auteur. OpenAI a utilisé Whisper pour transcrire plus d'un million d'heures de vidéos, tandis que Google a également transcrit des vidéos, soulevant des questions de violation de ses propres règles.

Les modèles d'IA entraînés sur YouTube par Google et OpenAI sont profilés par BTW Media car des preuves publiées les lient à l'infrastructure Internet, à la gouvernance, aux dépendances opérationnelles ou à la visibilité du marché.

OpenAI et Google ont utilisé l'outil de reconnaissance vocale Whisper pour transcrire plus d'un million de vidéos YouTube afin d'entraîner leurs modèles d'IA.
L'utilisation par OpenAI de vidéos YouTube pourraitenfreindre les règles de Google, qui interdisent l'utilisation de ses vidéos pour des applications autonomes ainsi que l'accès par des moyens automatisés.

OpenAI et Google se sont tournés vers la transcription de vidéos YouTube pour perfectionner leurs modèles d'IA, ce qui pourrait porter atteinte aux droits d'auteur des créateurs. Les deux géants de la technologie ont pris des raccourcis avec Meta pour obtenir autant de données que possible pour entraîner leurs modèles d'IA.

Violation du droit d'auteur des créateurs de vidéos

OpenAI a utilisé Whisper pour transcrire plus d'un million d'heures de vidéos YouTube, en intégrant les transcriptions dans GPT-4, le système d'IA utilisé pour le chatbot ChatGPT. Google, propriétaire de YouTube, a également transcrit des vidéos pour l'entraînement de modèles d'IA.

Les transcriptions de vidéos par les deux entreprises peuvent violer les droits d'auteur des producteurs originaux. Des poursuites judiciaires liées au droit d'auteur et aux licences ont résulté d'autres utilisations de contenu créatif pour l'entraînement de l'IA.

L'utilisation par OpenAI de vidéos YouTube peut également violer les règles de Google interdisant l'utilisation de ses vidéos pour des applications « indépendantes » et l'accès par « moyens automatisés (tels que les robots, les botnets ou les scrapers) » à ses vidéos.

Permettre l'utilisation de l'IA avec des données publiques

Le New York Times a été informé par le porte-parole de Google, Matt Bryant, que l'entreprise n'était pas au courant d'une telle utilisation par OpenAI. Des employés de Google étaient conscients de l'utilisation illégale par OpenAI du contenu de YouTube, mais ils ont choisi de ne pas intervenir car Google agissait de manière similaire. En outre, Google a informé le journal qu'il n'utilisait que du contenu dont les créateurs avaient consenti à ce type d'utilisation de leurs vidéos pour entraîner l'IA.

En juillet 2023, Google a modifié ses conditions d'utilisation pour permettre l'utilisation de contenus librement accessibles en ligne, tels que Google Docs et les évaluations de restaurants sur Google Maps, dans le but de perfectionner ses modèles d'IA.

Modèles d'IA entraînés sur des vidéos YouTube par Google et OpenAI

Violation du droit d'auteur des créateurs de vidéos

Permettre l'utilisation de l'IA avec des données publiques

Brief signal

Surface opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership