OpenAI a transcrit plus d'un million d'heures YouTube pour GPT-4

Pour entraîner GPT-4, OpenAI a transcrit plus d’un million d’heures de vidéos YouTube

Le Wall Street Journal a affirmé plus tôt cette semaine que les entreprises d’IA se heurtent à un obstacle dans la collecte de données d’entraînement de haute qualité. Le New York Times a détaillé certaines des façons dont les entreprises font face à ce problème. OpenAI a besoin de données d’entraînement Désespérée de données d’entraînement, OpenAI a développé le Whi…

Google a confirmé des rapports non confirmés concernant l’activité sur YouTube ded’OpenAI, déclarant que ses fichiers robots.txt et ses conditions d’utilisation interdisent le moissonnage ou le téléchargement non autorisé de contenu.
Meta a été confronté à des limitations de disponibilité des données d’entraînement et à des préoccupations de confidentialité suite au scandale Cambridge Analytica. L’entreprise a envisagé d’acheter des licences de livres ou d’acquérir un éditeur pour rattraper OpenAI, et a fait face à des restrictions sur l’utilisation des données des consommateurs.

OpenAI a besoin de données d’entraînement

Désespérée de données d’entraînement, OpenAI a développé le modèle de transcription audio Whisper pour surmonter les obstacles, en transcrivant plus d’un million d’heures de vidéos YouTube pour entraîner son modèle de langage à grande échelle de pointe, GPT-4. Selon le New York Times, l’entreprise savait que cela serait problématique sur le plan juridique mais l’a considéré comme un usage équitable. La porte-parole d’OpenAI, Lindsay Held, a déclaré à The Verge que l’entreprise organise des ensembles de données « uniques » pour chacun de ses modèles afin de « les aider à comprendre le monde » et de maintenir sa recherche mondiale compétitive.

Selon l’article du Times, l’entreprise a été à court de données pertinentes en 2021 et a évoqué la transcription de podcasts, de livres audio et de vidéos YouTube comme plan de secours. À cette époque, Google avait utilisé des informations provenant de Quizlet, une base de données de jeux d’échecs, et du code informatique de Github pour entraîner ses modèles.

La réponse de Google

Le porte-parole de Google, Matt Bryant, a déclaré à The Verge dans un e-mail que l’entreprise avait « vu des rapports non confirmés », ajoutant que « notre fichier robots.txt et nos conditions d’utilisation interdisent le moissonnage ou le téléchargement non autorisé de contenu YouTube », reflétant les conditions d’utilisation de l’entreprise. Bryant a déclaré que Google prend des « mesures techniques et juridiques » pour empêcher une telle utilisation non autorisée « lorsque nous avons une base juridique ou technique claire pour le faire ».

Le service juridique de Google a demandé à l’équipe de confidentialité de l’entreprise d’ajuster le langage de sa politique pour étendre son traitement des données des consommateurs, comme les outils bureautiques tels que Google Docs, écrit le Times. Google aurait l’intention de publier la nouvelle politique le 1er juillet pour profiter de la distraction du week-end du Jour de l’Indépendance.

La réponse de Meta

Meta a également rencontré les limitations de la disponibilité de bonnes données d’entraînement, et dans des enregistrements entendus par le Times, son équipe d’IA discute du problème de l’utilisation d’œuvres protégées par le droit d’auteur sans autorisation alors qu’elle tente de rattraper OpenAI. L’entreprise a envisagé des mesures telles que payer des licences de livres ou même acquérir un éditeur majeur. Les réformes de confidentialité de l’entreprise suite au scandale Cambridge Analytica ont également apparemment limité la façon dont elle utilise les données des consommateurs.

Google, OpenAI et le domaine plus large de l’entraînement de l’IA luttent contre la diminution rapide des données d’entraînement pour leurs modèles, et plus ces modèles absorbent de données, mieux c’est. Le Journal a écrit cette semaine que d’ici 2028, les entreprises pourraient dépasser la création de nouveau contenu.

Le Journal suggère des moyens de résoudre le problème des erreurs de modèle, y compris les données synthétiques ou l’apprentissage par cours. Cependant, aucune de ces méthodes n’est éprouvée. Les entreprises peuvent utiliser tout ce qu’elles trouvent, avec ou sans autorisation, mais cela est semé de litiges.

Pour entraîner GPT-4, OpenAI a transcrit plus d’un million d’heures de vidéos YouTube

OpenAI a besoin de données d’entraînement

La réponse de Google

La réponse de Meta

En bref

Ce que cela fait

Pourquoi c'est important

À surveiller

Contexte de profil approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership