OpenAI a transcrit plus d'un million d'heures de vidéos YouTube

CatégorieInstitution

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

RégionGlobal

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

Signal suiviGovernance

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

Type de contenuPROFILE

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

Domaine principalGovernance

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

SujetGovernance

ImpactMedium

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

Confiance?Confiance limitée (80%)

Plusieurs sources publiques

Google a confirmé des rapports non confirmés sur l'activité d'OpenAI sur YouTube, déclarant que ses fichiers robots.txt et ses conditions d'utilisation interdisent le scraping ou le téléchargement non autorisés de contenu.
Meta a été confrontée à des limitations dans la disponibilité des données d'entraînement et à des préoccupations de confidentialité suite au scandale Cambridge Analytica. L'entreprise a envisagé d'acheter des licences de livres ou d'acquérir un éditeur pour rattraper OpenAI, et a fait face à des restrictions sur l'utilisation des données des consommateurs.

Le Wall Street Journal a affirmé plus tôt cette semaine que les entreprises d'IA rencontrent un obstacle dans la collecte de données d'entraînement de haute qualité. Le New York Times a détaillé certaines des méthodes utilisées par les entreprises pour faire face à ce problème. Voir aussi: La FCC soutient les constructeurs de fibre avec des limites de permis.

OpenAI a besoin de données d'entraînement

Désespérée de données d'entraînement, OpenAI a développé le modèle de transcription audio Whisper pour surmonter les obstacles, transcrivant plus d'un million d'heures de vidéos YouTube pour entraîner son modèle de langage à grande échelle de pointe, GPT-4. Selon le New York Times, l'entreprise savait que cela poserait des problèmes juridiques mais a considéré cela comme une utilisation équitable. La porte-parole d'OpenAI, Lindsay Held, a déclaré à The Verge que l'entreprise crée des ensembles de données « uniques » pour chacun de ses modèles afin de « les aider à comprendre le monde » et de maintenir la compétitivité de sa recherche mondiale. Voir aussi: Ofcom révèle les lacunes de couverture mobile sur les trains britanniques.

Selon l'article du Times, l'entreprise a épuisé les données pertinentes en 2021 et a envisagé de transcrire des podcasts, des livres audio et des vidéos YouTube comme plan de secours. À cette époque, Google avait utilisé des informations de Quizlet, une base de données de parties d'échecs, et du code informatique de Github pour entraîner ses modèles. Voir aussi: Robert Neuwirth.

Réponse de Google

Le porte-parole de Google, Matt Bryant, a déclaré à The Verge dans un courriel que l'entreprise avait « vu des rapports non confirmés », ajoutant que « nos fichiers robots.txt et nos conditions d'utilisation interdisent le scraping ou le téléchargement non autorisés de contenu YouTube », reflétant les conditions d'utilisation de l'entreprise. Bryant a déclaré que Google prend des « mesures techniques et juridiques » pour empêcher une telle utilisation non autorisée « lorsque nous avons une base juridique ou technique claire pour le faire ». Voir aussi: L'UE réécrit les règles de souveraineté de l'infrastructure IA.

Le département juridique de Google a demandé à l'équipe de confidentialité de l'entreprise d'ajuster le libellé de sa politique pour étendre le traitement des données des consommateurs, comme les outils bureautiques tels que Google Docs, écrit le Times. Google aurait l'intention de publier cette nouvelle politique le 1er juillet pour profiter de la distraction du week-end de la fête de l'Indépendance. Voir aussi: L'UE évince les opérateurs satellites américains du spectre.

Réponse de Meta

Meta a également rencontré les limites de la disponibilité de bonnes données d'entraînement, et dans des enregistrements entendus par le Times, son équipe d'IA discute du problème de l'utilisation d'œuvres protégées par le droit d'auteur sans autorisation alors qu'elle tente de rattraper OpenAI. L'entreprise a envisagé des mesures telles que payer des licences de livres ou même acquérir un grand éditeur. Les réformes de confidentialité de l'entreprise à la suite du scandale Cambridge Analytica ont apparemment également limité la manière dont elle utilise les données des consommateurs. Voir aussi: La FCC impose des licences pour les points d'atterrissage des câbles sous-marins aux États-Unis.

Google, OpenAI et le domaine plus large de l'entraînement de l'IA sont confrontés à une évaporation rapide des données d'entraînement pour leurs modèles, et plus ces modèles absorbent de données, mieux c'est. Le Journal a écrit cette semaine que d'ici 2028, les entreprises pourraient dépasser le développement de nouveaux contenus. Voir aussi: Les États-Unis ferment la faille des puces d'IA offshore.

Le Journal suggère des moyens de résoudre le problème des erreurs de modèle, y compris les données synthétiques ou l'apprentissage par curriculum. Cependant, aucune de ces méthodes n'est éprouvée. Les entreprises peuvent utiliser tout ce qu'elles trouvent, avec ou sans autorisation, mais cela est lourd de litiges. Voir aussi: FCC relance les enchères AWS-3 après le défaut de Dish.

Domaine d'activité

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est lu à partir de son rôle public, de son contexte opérationnel et de la couverture liée.

Rôle public: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est suivi à travers son rôle visible, son contexte de service et des éléments vérifiables. Base de preuve: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record
Surface opérationnelle: Governance et Global donnent le contexte public de ce profil de institution. Base de preuve: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record

Chronologie

08 juin 2026
Profil public de To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage mis à jour
La couverture publique inscrit To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage comme sujet à suivre par rôle, contexte opérationnel et preuves.

En bref

Nom: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage
Type: Internet infrastructure institution
Base: Global
Axe du profil: Institution

Ce que cela fait

Les documents publics permettent de suivre son rôle, ses services et ses relations clés.

Pourquoi c'est important

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
Criticité opérationnelle: Medium
Horizon: Next quarter

À surveiller

Le suivi porte sur la continuité de service vérifiée, les changements de gouvernance et les signaux relationnels.

MaintenantMedium prioritaire

Suivre les mises à jour de sources vérifiées, les changements de rôle et les preuves publiques actuelles.

TrimestreMedium sensibilité politique

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

AnnéeNext quarter perspective

La pertinence de long terme dépend de changements vérifiés dans l'exploitation, les politiques et les relations.

Briefing membre

Contexte de profil approfondi

Connectez-vous pour débloquer le briefing de profil complet et les notes de source.

Réservé au Cercle stratégique

Cercle stratégique

Ouvert à tous les lecteurs. Débloquez les briefings de profil après adhésion et connexion.

Rejoindre le Cercle stratégique

Réservé à l'Alliance de leadership

Alliance de leadership

Réservé aux propriétaires et dirigeants qualifiés d'actifs IP ; connectez-vous pour débloquer les briefings Alliance.

Rejoindre l'Alliance de leadership

Vue publique

La lecture publique de To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage reste limitée au rôle visible, au contexte opérationnel et aux relations étayées.

Points de vigilance

Nouveaux rôles, partenariats, produits, politiques ou signaux de marché publics.
Changements relationnels vérifiés impliquant des organisations ou personnes nommées.

Réserves

Les affirmations privées ou non vérifiées sont exclues de cette vue publique.

FAQ

Pourquoi To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est-il inclus ?

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage dispose de preuves publiques qui le rendent pertinent pour la couverture des infrastructures numériques, de la gouvernance ou des marchés.

Qu'est-ce qui est public dans ce profil ?

La couche publique couvre le rôle visible, le contexte opérationnel, les entités liées et les points de vigilance étayés.

Que faut-il surveiller ensuite ?

Les lecteurs doivent suivre les changements de rôle, nouveaux partenariats, expositions réglementaires, extensions opérationnelles ou preuves capables de modifier l'évaluation publique.

← Retour Toutes les entreprises

0.90–1.00	A	High — direct sources
0.75–0.89	A/B	Strong
0.55–0.74	B/C	Medium
0.35–0.54	C/D	Weak–medium
0.10–0.34	D	Weak signal
0.00–0.09	D	Internal monitoring

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage

Sources

OpenAI a besoin de données d'entraînement

Réponse de Google