To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.
To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.
To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.
To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.
Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
| 0.90–1.00 | A | High — direct sources |
| 0.75–0.89 | A/B | Strong |
| 0.55–0.74 | B/C | Medium |
| 0.35–0.54 | C/D | Weak–medium |
| 0.10–0.34 | D | Weak signal |
| 0.00–0.09 | D | Internal monitoring |
Plusieurs sources publiques
- Google a confirmé des rapports non confirmés sur l'activité d'OpenAI sur YouTube, déclarant que ses fichiers robots.txt et ses conditions d'utilisation interdisent le scraping ou le téléchargement non autorisés de contenu.
- Meta a été confrontée à des limitations dans la disponibilité des données d'entraînement et à des préoccupations de confidentialité suite au scandale Cambridge Analytica. L'entreprise a envisagé d'acheter des licences de livres ou d'acquérir un éditeur pour rattraper OpenAI, et a fait face à des restrictions sur l'utilisation des données des consommateurs.
Le Wall Street Journal a affirmé plus tôt cette semaine que les entreprises d'IA rencontrent un obstacle dans la collecte de données d'entraînement de haute qualité. Le New York Times a détaillé certaines des méthodes utilisées par les entreprises pour faire face à ce problème. Voir aussi: La FCC soutient les constructeurs de fibre avec des limites de permis.
OpenAI a besoin de données d'entraînement
Désespérée de données d'entraînement, OpenAI a développé le modèle de transcription audio Whisper pour surmonter les obstacles, transcrivant plus d'un million d'heures de vidéos YouTube pour entraîner son modèle de langage à grande échelle de pointe, GPT-4. Selon le New York Times, l'entreprise savait que cela poserait des problèmes juridiques mais a considéré cela comme une utilisation équitable. La porte-parole d'OpenAI, Lindsay Held, a déclaré à The Verge que l'entreprise crée des ensembles de données « uniques » pour chacun de ses modèles afin de « les aider à comprendre le monde » et de maintenir la compétitivité de sa recherche mondiale. Voir aussi: Ofcom révèle les lacunes de couverture mobile sur les trains britanniques.
Selon l'article du Times, l'entreprise a épuisé les données pertinentes en 2021 et a envisagé de transcrire des podcasts, des livres audio et des vidéos YouTube comme plan de secours. À cette époque, Google avait utilisé des informations de Quizlet, une base de données de parties d'échecs, et du code informatique de Github pour entraîner ses modèles. Voir aussi: Robert Neuwirth.
Lire aussi: Meta nie avoir permis à Netflix d'accéder aux informations privées des utilisateurs
Réponse de Google
Le porte-parole de Google, Matt Bryant, a déclaré à The Verge dans un courriel que l'entreprise avait « vu des rapports non confirmés », ajoutant que « nos fichiers robots.txt et nos conditions d'utilisation interdisent le scraping ou le téléchargement non autorisés de contenu YouTube », reflétant les conditions d'utilisation de l'entreprise. Bryant a déclaré que Google prend des « mesures techniques et juridiques » pour empêcher une telle utilisation non autorisée « lorsque nous avons une base juridique ou technique claire pour le faire ». Voir aussi: L'UE réécrit les règles de souveraineté de l'infrastructure IA.
Le département juridique de Google a demandé à l'équipe de confidentialité de l'entreprise d'ajuster le libellé de sa politique pour étendre le traitement des données des consommateurs, comme les outils bureautiques tels que Google Docs, écrit le Times. Google aurait l'intention de publier cette nouvelle politique le 1er juillet pour profiter de la distraction du week-end de la fête de l'Indépendance. Voir aussi: L'UE évince les opérateurs satellites américains du spectre.
Lire aussi: L'outil de clonage vocal d'OpenAI imite votre voix avec un échantillon de 15 secondes
Réponse de Meta
Meta a également rencontré les limites de la disponibilité de bonnes données d'entraînement, et dans des enregistrements entendus par le Times, son équipe d'IA discute du problème de l'utilisation d'œuvres protégées par le droit d'auteur sans autorisation alors qu'elle tente de rattraper OpenAI. L'entreprise a envisagé des mesures telles que payer des licences de livres ou même acquérir un grand éditeur. Les réformes de confidentialité de l'entreprise à la suite du scandale Cambridge Analytica ont apparemment également limité la manière dont elle utilise les données des consommateurs. Voir aussi: La FCC impose des licences pour les points d'atterrissage des câbles sous-marins aux États-Unis.
Google, OpenAI et le domaine plus large de l'entraînement de l'IA sont confrontés à une évaporation rapide des données d'entraînement pour leurs modèles, et plus ces modèles absorbent de données, mieux c'est. Le Journal a écrit cette semaine que d'ici 2028, les entreprises pourraient dépasser le développement de nouveaux contenus. Voir aussi: Les États-Unis ferment la faille des puces d'IA offshore.
Le Journal suggère des moyens de résoudre le problème des erreurs de modèle, y compris les données synthétiques ou l'apprentissage par curriculum. Cependant, aucune de ces méthodes n'est éprouvée. Les entreprises peuvent utiliser tout ce qu'elles trouvent, avec ou sans autorisation, mais cela est lourd de litiges. Voir aussi: FCC relance les enchères AWS-3 après le défaut de Dish.
Domaine d'activité
To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est lu à partir de son rôle public, de son contexte opérationnel et de la couverture liée.
- Rôle public: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est suivi à travers son rôle visible, son contexte de service et des éléments vérifiables. Base de preuve: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record
- Surface opérationnelle: Governance et Global donnent le contexte public de ce profil de institution. Base de preuve: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record
Chronologie
- Profil public de To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage mis à jour
La couverture publique inscrit To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage comme sujet à suivre par rôle, contexte opérationnel et preuves.
En bref
- Nom: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage
- Type: Internet infrastructure institution
- Base: Global
- Axe du profil: Institution
Ce que cela fait
- Les documents publics permettent de suivre son rôle, ses services et ses relations clés.
Pourquoi c'est important
- Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
- Criticité opérationnelle: Medium
- Horizon: Next quarter
À surveiller
- Le suivi porte sur la continuité de service vérifiée, les changements de gouvernance et les signaux relationnels.
Suivre les mises à jour de sources vérifiées, les changements de rôle et les preuves publiques actuelles.
Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
La pertinence de long terme dépend de changements vérifiés dans l'exploitation, les politiques et les relations.
Briefing membre
Contexte de profil approfondi
Connectez-vous pour débloquer le briefing de profil complet et les notes de source.
Réservé au Cercle stratégique
Cercle stratégique
Ouvert à tous les lecteurs. Débloquez les briefings de profil après adhésion et connexion.
Rejoindre le Cercle stratégiqueRéservé à l'Alliance de leadership
Alliance de leadership
Réservé aux propriétaires et dirigeants qualifiés d'actifs IP ; connectez-vous pour débloquer les briefings Alliance.
Rejoindre l'Alliance de leadershipVue publique
La lecture publique de To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage reste limitée au rôle visible, au contexte opérationnel et aux relations étayées.
Points de vigilance
- Nouveaux rôles, partenariats, produits, politiques ou signaux de marché publics.
- Changements relationnels vérifiés impliquant des organisations ou personnes nommées.
Réserves
- Les affirmations privées ou non vérifiées sont exclues de cette vue publique.
FAQ
Pourquoi To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage est-il inclus ?
To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage dispose de preuves publiques qui le rendent pertinent pour la couverture des infrastructures numériques, de la gouvernance ou des marchés.
Qu'est-ce qui est public dans ce profil ?
La couche publique couvre le rôle visible, le contexte opérationnel, les entités liées et les points de vigilance étayés.
Que faut-il surveiller ensuite ?
Les lecteurs doivent suivre les changements de rôle, nouveaux partenariats, expositions réglementaires, extensions opérationnelles ou preuves capables de modifier l'évaluation publique.






