Institution Profiling / Expediente

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage

Fuentes

Referencias públicas utilizadas para este artículo.

Las referencias externas aparecerán aquí después de la revisión editorial de citas.

CategoríaInstitution

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

RegiónGlobal

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

Señal principalGovernance

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

Tipo de contenidoPROFILE

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

Dominio principalGovernance

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

ImpactoMedium

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

Confianza?Confidence Grade
0.90–1.00AHigh — direct sources
0.75–0.89A/BStrong
0.55–0.74B/CMedium
0.35–0.54C/DWeak–medium
0.10–0.34DWeak signal
0.00–0.09DInternal monitoring
Confianza limitada (80%)

Varias fuentes públicas

  • Google ha confirmado informes no confirmados de la actividad de OpenAI en YouTube, afirmando que sus archivos robots.txt y Términos del Servicio prohíben la extracción o descarga no autorizada de contenido.
  • Meta se enfrentó a limitaciones en la disponibilidad de datos de entrenamiento y a problemas de privacidad tras el escándalo de Cambridge Analytica. La empresa consideró comprar licencias de libros o adquirir una editorial para alcanzar a OpenAI, y se vio limitada en el uso de datos de consumidores.

The Wall Street Journal afirmó esta semana que las empresas de IA están encontrando un obstáculo en la recopilación de datos de entrenamiento de alta calidad. The New York Times detalló algunas de las formas en que las empresas están lidiando con este problema. Ver también: La FCC respalda a los constructores de fibra con límites de permisos.

OpenAI necesita datos de entrenamiento

Desesperada por datos de entrenamiento, OpenAI desarrolló el modelo de transcripción de audio Whisper para superar las dificultades, transcribiendo más de un millón de horas de video de YouTube para entrenar su modelo de lenguaje a gran escala de última generación, GPT-4. Según The New York Times, la empresa sabía que esto sería legalmente problemático pero lo consideró uso legítimo. La portavoz de OpenAI, Lindsay Held, declaró a The Verge que la empresa selecciona conjuntos de datos “únicos” para cada uno de sus modelos para “ayudarles a comprender el mundo” y mantener su investigación global competitiva. Ver también: Ofcom expone la brecha de cobertura móvil en los trenes del Reino Unido.

Según el artículo del Times, la corporación se quedó sin datos relevantes en 2021 y habló de transcribir podcasts, audiolibros y videos de YouTube como plan de respaldo. Para entonces, Google ya había utilizado información de Quizlet, una base de datos de partidas de ajedrez y código informático de Github para entrenar sus modelos. Ver también: Robert Neuwirth.

Lea también: Meta niega permitir a Netflix acceder a la información privada de los usuarios

Respuesta de Google

El portavoz de Google, Matt Bryant, declaró a The Verge en un correo electrónico que la empresa había “visto informes no confirmados”, añadiendo que “tanto nuestro archivo robots.txt como nuestros Términos del Servicio prohíben la extracción o descarga no autorizada de contenido de YouTube”, reflejando las condiciones de uso de la empresa. Bryant afirmó que Google toma “medidas técnicas y legales” para prevenir dicho uso no autorizado “cuando tenemos una base legal o técnica clara para hacerlo”. Ver también: La UE reescribe las reglas de soberanía de la infraestructura de IA.

El departamento jurídico de Google ha solicitado a su equipo de privacidad que ajuste el lenguaje de su política para ampliar el tratamiento de los datos de los consumidores, como las herramientas ofimáticas como Google Docs, escribe el Times. Según se informa, Google tiene la intención de publicar la nueva política el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia. Ver también: La UE expulsa a los operadores satelitales estadounidenses del espectro.

Lea también: La herramienta de clonación de voz de OpenAI imita tu voz con una muestra de 15 segundos

Respuesta de Meta

Meta se ha encontrado de manera similar con las limitaciones de la disponibilidad de buenos datos de entrenamiento, y en grabaciones escuchadas por The Times, su equipo de IA discute el problema de usar obras con derechos de autor sin permiso en su intento de alcanzar a OpenAI. La empresa consideró medidas como pagar por licencias de libros o incluso adquirir directamente una gran editorial. Las reformas de privacidad de la empresa tras el escándalo de Cambridge Analytica también han limitado aparentemente la forma en que utiliza los datos de los consumidores. Ver también: La FCC exige licencias para los aterrizajes de cables submarinos en EE. UU..

Google, OpenAI y el campo más amplio del entrenamiento de IA están luchando contra la rápida evaporación de los datos de entrenamiento para sus modelos, y cuantos más datos absorben esos modelos, mejor. El Journal escribió esta semana que para 2028, las empresas podrían superar el desarrollo de nuevo contenido. Ver también: EE. UU. cierra la laguna legal de los chips de IA en el extranjero.

El Journal sugiere formas de resolver el problema de los errores de los modelos, incluidos los datos sintéticos o el aprendizaje por currículum. Sin embargo, ninguno de estos métodos está probado. Las empresas pueden usar lo que encuentren, con o sin permiso, pero esto está plagado de litigios. Ver también: La FCC reabre la subasta AWS-3 tras el incumplimiento de Dish.

Domain of operation

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is profiled by BTW Media because published evidence links it to internet infrastructure, governance, operational dependencies, or market visibility.

  • Public role: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is framed by to train gpt-4, openai transcribed more over a million hours of youtube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem. and public governance context. Base de evidencia: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record
  • Operating surface: Governance and Global provide the public context for this institution profile. Base de evidencia: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record

Cronología

  1. To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage public profile updated

    Public coverage records To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage as a subject for role, operating context, and evidence review.

De un vistazo

  • Nombre: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage
  • Tipo: Internet infrastructure institution
  • Base: Global
  • Enfoque del perfil: Institution

Qué hace

  • Los registros públicos permiten seguir su rol, servicios y relaciones clave.

Por qué importa

  • Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
  • Criticidad operativa: Medium
  • Horizonte: Next quarter

Qué vigilar

  • El seguimiento se centra en continuidad de servicio verificada, cambios de gobernanza y señales relacionales.
AhoraMedium prioridad

Seguir actualizaciones de fuentes verificadas, cambios de rol y evidencia pública actual.

TrimestreMedium sensibilidad política

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

AñoNext quarter perspectiva

La relevancia a largo plazo depende de cambios operativos, políticos y relacionales verificados.

Briefing para miembros

Contexto de perfil profundo

Inicia sesión para desbloquear el briefing de perfil completo y las notas de fuente.

Solo para Círculo Estratégico

Círculo Estratégico

Abierto a todos los lectores. Desbloquea briefings de perfil después de unirte e iniciar sesión.

Unirse al Círculo Estratégico

Solo para Alianza de Liderazgo

Alianza de Liderazgo

Para propietarios y directivos cualificados de activos IP; inicia sesión para desbloquear briefings de alianza.

Unirse a la Alianza de Liderazgo

Vista pública

The public read of To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is limited to visible role, operating context, and relationship evidence.

Puntos de vigilancia

  • New public role, affiliation, product, policy, or market disclosures.
  • Verified relationship changes involving named organizations or people.

Salvedades

  • Private or unverified claims are excluded from this public view.

Preguntas frecuentes

Why is To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage included?

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public evidence that makes the institution relevant to BTW's coverage of digital infrastructure, governance, or markets.

What is public about this profile?

The public layer covers visible role, operating context, linked organizations, and evidence-backed watchpoints.

What should readers watch next?

Readers should watch for source-backed role changes, new partnerships, regulatory exposure, operating expansion, or evidence that changes the public assessment.

VolverTodas las empresas