OpenAI transcribió más de un millón de horas de video para GPT-4

CategoríaInstitución

Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube es el tema de este archivo de inteligencia.

RegiónGlobal

Global es el contexto jurisdiccional visible en la evidencia.

Señal principalGobernanza

Gobernanza es la señal principal bajo revisión.

Tipo de contenidoPerfil

The Wall Street Journal afirmó a principios de esta semana que las empresas de IA están encontrando un obstáculo para recopilar datos de entrenamiento de alta calidad. The New York Times detalló algunas de las formas en que las empresas están lidiando con este problema. OpenAI necesita datos de entrenamiento. Desesperada por datos de entrenamiento, OpenAI desarrolló el Whi…

Dominio principalMercado

TemaGobernanza

ImpactoMedio

ConfianzaConfianza limitada (80%)

Inferencia de múltiples fuentes respaldada por evidencia publicada.

Google ha confirmado informes no confirmados sobre la actividad deOpenAIen YouTube, afirmando que sus archivos robots.txt y sus Términos de Servicio prohíben el scraping o la descarga no autorizada de contenido.
Meta enfrentó limitaciones en la disponibilidad de datos de entrenamiento y preocupaciones de privacidad tras el escándalo de Cambridge Analytica. La compañía consideró comprar licencias de libros o adquirir una editorial para alcanzar a OpenAI, y enfrentó restricciones en el uso de datos de consumidores.

OpenAI necesita datos de entrenamiento

Desesperada por datos de entrenamiento, OpenAI desarrolló el modelo de transcripción de audio Whisper para superar las dificultades, transcribiendo más de un millón de horas de video de YouTube para entrenar su modelo de lenguaje a gran escala de última generación, GPT-4. Según The New York Times, la empresa sabía que esto sería legalmente problemático pero lo consideró uso justo. La portavoz de OpenAI, Lindsay Held, declaró a The Verge que la empresa selecciona conjuntos de datos "únicos" para cada uno de sus modelos para "ayudarles a entender el mundo" y mantener la competitividad de su investigación global.

Según el artículo del Times, la corporación se quedó sin datos relevantes en 2021 y habló de transcribir podcasts, audiolibros y videos de YouTube como plan de respaldo. Para entonces, Google había utilizado información de Quizlet, una base de datos de juegos de ajedrez, y código informático de Github para entrenar sus modelos.

Lea también:Meta niega haber permitido a Netflix acceder a la información privada de los usuarios

La respuesta de Google

El portavoz de Google, Matt Bryant, declaró a The Verge en un correo electrónico que la empresa había "visto informes no confirmados", añadiendo que "tanto nuestro archivo robots.txt como nuestros términos de servicio prohíben el scraping o la descarga no autorizada del contenido de YouTube", reflejando los términos de uso de la empresa. Bryant dijo que Google toma "medidas técnicas y legales" para prevenir dicho uso no autorizado "cuando tenemos una base legal o técnica clara para hacerlo".

El departamento legal de Google ha pedido al equipo de privacidad de la empresa que ajuste el lenguaje de su política para ampliar su manejo de datos de consumidores, como herramientas ofimáticas como Google Docs, escribe el Times. Según se informa, Google tiene la intención de publicar la nueva política el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.

Lea también:La herramienta de clonación de voz de OpenAI imita tu voz con una muestra de 15 segundos

La respuesta de Meta

Meta se ha encontrado de manera similar con las limitaciones de la disponibilidad de buenos datos de entrenamiento, y en grabaciones escuchadas por The Times, su equipo de IA discute el problema de utilizar obras con derechos de autor sin permiso mientras intenta alcanzar a OpenAI. La empresa consideró medidas como pagar por licencias de libros o incluso adquirir una editorial importante directamente. Las reformas de privacidad de la empresa tras el escándalo de Cambridge Analytica también han limitado aparentemente la forma en que utiliza los datos de los consumidores.

Google, OpenAI y el campo más amplio del entrenamiento de IA están luchando con la rápida evaporación de los datos de entrenamiento para sus modelos, y cuanto más datos absorben esos modelos, mejor. El Journal escribió esta semana que para 2028, las empresas podrían superar el desarrollo de nuevos contenidos.

El Journal sugiere formas de resolver el problema de los errores de los modelos, incluidos los datos sintéticos o el aprendizaje por currículo. Sin embargo, ninguno de los métodos está probado. Las empresas pueden usar lo que encuentren, con o sin permiso, pero esto está plagado de litigios.

Dominio de operación

Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube se lee a partir de su rol público, contexto operativo y cobertura relacionada.

Rol público: Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube se sigue por su rol visible, contexto de servicio y material verificable.
Superficie operativa: Gobernanza y Global dan el contexto público de este perfil de institución.

Cronología

30 jun 2026
Perfil público de Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube actualizado
La cobertura pública registra a Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube como sujeto para revisar rol, contexto operativo y evidencia.

De un vistazo

Nombre: Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube
Tipo: Tema relacionado
Base: Global
Enfoque del perfil: Institución

Qué hace

Los registros públicos permiten seguir su rol, servicios y relaciones clave.

Por qué importa

The Wall Street Journal afirmó a principios de esta semana que las empresas de IA están encontrando un obstáculo para recopilar datos de entrenamiento de alta calidad. The New York Times detalló algunas de las formas en que las empresas están lidiando con este problema. OpenAI necesita datos de entrenamiento. Desesperada por datos de entrenamiento, OpenAI desarrolló el Whi…
Criticidad operativa: Medio
Horizonte: Próximo trimestre

Qué vigilar

El seguimiento se centra en continuidad de servicio verificada, cambios de gobernanza y señales relacionales.

AhoraMedio prioridad

Seguir actualizaciones de fuentes verificadas, cambios de rol y evidencia pública actual.

TrimestreMedio sensibilidad política

AñoPróximo trimestre perspectiva

La relevancia a largo plazo depende de cambios operativos, políticos y relacionales verificados.

Briefing para miembros

Contexto de perfil profundo

Inicia sesión con el nivel de membresía adecuado para desbloquear el briefing completo y las notas de fuente.

Solo para Círculo Estratégico

Círculo Estratégico

Abierto a todos los lectores. Desbloquea briefings de perfil después de unirte e iniciar sesión.

Unirse al Círculo Estratégico

Solo para Alianza de Liderazgo

Alianza de Liderazgo

Para propietarios y directivos cualificados de activos IP; inicia sesión para desbloquear briefings de alianza.

Unirse a la Alianza de Liderazgo

Vista pública

La lectura pública de Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube se limita al rol visible, contexto operativo y relaciones respaldadas por evidencia.

Puntos de vigilancia

Nuevos roles, asociaciones, productos, políticas o señales de mercado públicas.
Cambios relacionales verificados que involucren organizaciones o personas nombradas.

Salvedades

Las afirmaciones privadas o no verificadas quedan fuera de esta vista pública.

Preguntas frecuentes

¿Por qué se incluye Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube?

Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube tiene evidencia pública que lo vuelve relevante para la cobertura de infraestructura digital, gobernanza o mercados.

¿Qué es público en este perfil?

La capa pública cubre rol visible, contexto operativo, entidades vinculadas y puntos de vigilancia respaldados por evidencia.

¿Qué deberían vigilar los lectores?

Los lectores deben seguir cambios de rol con fuentes, nuevas alianzas, exposición regulatoria, expansión operativa o evidencia que cambie la evaluación pública.

← Volver Todas las empresas

Para entrenar GPT-4, OpenAI transcribió más de un millón de horas de videos de YouTube