• Google ha confirmado informes no confirmados sobre la actividad deOpenAIen YouTube, afirmando que sus archivos robots.txt y sus Términos de Servicio prohíben el scraping o la descarga no autorizada de contenido.
  • Meta enfrentó limitaciones en la disponibilidad de datos de entrenamiento y preocupaciones de privacidad tras el escándalo de Cambridge Analytica. La compañía consideró comprar licencias de libros o adquirir una editorial para alcanzar a OpenAI, y enfrentó restricciones en el uso de datos de consumidores.

The Wall Street Journal afirmó a principios de esta semana que las empresas de IA están encontrando un obstáculo para recopilar datos de entrenamiento de alta calidad. The New York Times detalló algunas de las formas en que las empresas están lidiando con este problema.

OpenAI necesita datos de entrenamiento

Desesperada por datos de entrenamiento, OpenAI desarrolló el modelo de transcripción de audio Whisper para superar las dificultades, transcribiendo más de un millón de horas de video de YouTube para entrenar su modelo de lenguaje a gran escala de última generación, GPT-4. Según The New York Times, la empresa sabía que esto sería legalmente problemático pero lo consideró uso justo. La portavoz de OpenAI, Lindsay Held, declaró a The Verge que la empresa selecciona conjuntos de datos "únicos" para cada uno de sus modelos para "ayudarles a entender el mundo" y mantener la competitividad de su investigación global.

Según el artículo del Times, la corporación se quedó sin datos relevantes en 2021 y habló de transcribir podcasts, audiolibros y videos de YouTube como plan de respaldo. Para entonces, Google había utilizado información de Quizlet, una base de datos de juegos de ajedrez, y código informático de Github para entrenar sus modelos.

Lea también:Meta niega haber permitido a Netflix acceder a la información privada de los usuarios

La respuesta de Google

El portavoz de Google, Matt Bryant, declaró a The Verge en un correo electrónico que la empresa había "visto informes no confirmados", añadiendo que "tanto nuestro archivo robots.txt como nuestros términos de servicio prohíben el scraping o la descarga no autorizada del contenido de YouTube", reflejando los términos de uso de la empresa. Bryant dijo que Google toma "medidas técnicas y legales" para prevenir dicho uso no autorizado "cuando tenemos una base legal o técnica clara para hacerlo".

El departamento legal de Google ha pedido al equipo de privacidad de la empresa que ajuste el lenguaje de su política para ampliar su manejo de datos de consumidores, como herramientas ofimáticas como Google Docs, escribe el Times. Según se informa, Google tiene la intención de publicar la nueva política el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.

Lea también:La herramienta de clonación de voz de OpenAI imita tu voz con una muestra de 15 segundos

La respuesta de Meta

Meta se ha encontrado de manera similar con las limitaciones de la disponibilidad de buenos datos de entrenamiento, y en grabaciones escuchadas por The Times, su equipo de IA discute el problema de utilizar obras con derechos de autor sin permiso mientras intenta alcanzar a OpenAI. La empresa consideró medidas como pagar por licencias de libros o incluso adquirir una editorial importante directamente. Las reformas de privacidad de la empresa tras el escándalo de Cambridge Analytica también han limitado aparentemente la forma en que utiliza los datos de los consumidores.

Google, OpenAI y el campo más amplio del entrenamiento de IA están luchando con la rápida evaporación de los datos de entrenamiento para sus modelos, y cuanto más datos absorben esos modelos, mejor. El Journal escribió esta semana que para 2028, las empresas podrían superar el desarrollo de nuevos contenidos.

El Journal sugiere formas de resolver el problema de los errores de los modelos, incluidos los datos sintéticos o el aprendizaje por currículo. Sin embargo, ninguno de los métodos está probado. Las empresas pueden usar lo que encuentren, con o sin permiso, pero esto está plagado de litigios.