• Algunos gigantes tecnológicos supuestamente usaron transcripciones de YouTube sin permiso para entrenar modelos de IA.
  • La legalidad de usar bases de datos no autorizadas para entrenar IA está indeterminada, lo que podría obstaculizar el desarrollo futuro de la IA.

NUESTRA OPINIÓN
El desarrollo de la tecnología de IA es ciertamente prometedor, pero su creación y avance se basan en bases de datos. La falta de transparencia en estas bases de datos está destinada a causar controversia. Las partes afectadas y las empresas infractoras a menudo tienen puntos de vista opuestos, sin una resolución definitiva a la vista. Esta situación es como una espada de Damocles que pende sobre la industria; si no se aborda, inevitablemente obstaculizará el desarrollo continuo de la IA.

— Yasmine Luo, reportera de BTW

¿Qué sucedió?

Algunas grandes empresas tecnológicas están acusadas de usar transcripciones de YouTube sin autorización para entrenar sus modelos de IA.

Según Proof News, EleutherAI, una organización sin fines de lucro, creó un conjunto de datos que contiene transcripciones de más de 48,000 canales de YouTube, incluyendo contenido de creadores prominentes como Marques Brownlee y MrBeast, así como de importantes editores como The New York Times, la BBC y ABC News. Según una nueva investigación de Proof News, Apple, NVIDIA, Anthropic y otras grandes empresas tecnológicas utilizaron este conjunto de datos para entrenar sus modelos de IA.

Neal Mohan, CEO de YouTube, declaró anteriormente: “Las empresas que utilizan datos de YouTube para entrenar modelos de IA violarían los términos de servicio de la plataforma”.

Marques Brownlee, un famoso YouTuber, publicó en redes sociales: “Apple ha obtenido datos para su IA de varias empresas. Una de ellas extrajo una gran cantidad de datos/transcripciones de videos de YouTube, incluidos los míos. Técnicamente, Apple evita la ‘culpa’ aquí porque no son ellos los que extraen. Pero esto va a ser un problema en evolución durante mucho tiempo”.

Actualmente, Apple, NVIDIA, Anthropic y EleutherAI no han comentado sobre el asunto.

Lea también: PDG respaldada por Warburg apunta a la expansión de centros de datos impulsada por IA en Asia

Lea también: El proyecto ‘Strawberry’ de OpenAI avanza en el razonamiento de IA

Por qué es importante

El rápido crecimiento de los modelos de IA, aunque promete dar forma al futuro, también ha planteado numerosas cuestiones legales sin resolver. Las recientes acusaciones contra los gigantes tecnológicos se suman a estas preocupaciones. Desde sus inicios, la tecnología de IA ha lidiado con el problema de las bases de datos de entrenamiento no transparentes. Si los datos de entrenamiento de IA no se obtienen de manera adecuada, existe el riesgo de infracción de derechos de autor o derechos de base de datos.

Sin embargo, aún no se ha determinado si las empresas involucradas enfrentarán cargos legales. The Verge realizó una investigación entre abogados, analistas y empleados de startups de IA, revelando opiniones divididas sobre este tema.

“Veo a personas en ambos lados extremadamente seguras de sus posiciones, pero la realidad es que nadie lo sabe”, dice Baio, un observador de IA.

Aunque las empresas o individuos afectados afirman que es ilegal, es poco probable que sus demandas sean atendidas, como lo demuestra la falta de respuesta de las empresas acusadas.

Si este problema sigue sin resolverse, algún día podría obstaculizar el desarrollo continuo de la tecnología de IA.