Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo

La tecnología ChatGPT de OpenAI se ha vuelto viral en menos de un año y ya está teniendo un impacto en los patrones de trabajo y el futuro de la industria.

La tecnología ChatGPT de OpenAI se ha vuelto viral en menos de un año y ya está teniendo un impacto en los patrones de trabajo y el futuro de la industria. Dentro de algunas de las empresas líderes del mundo, hasta la mitad de los empleados ya utilizan este tipo de tecnología a diario. Innumerables empresas han invertido en el campo de la IA, compitiendo por lanzar nuevos productos, particularmente en Internet, educación, juegos y otras industrias en crecimiento.

Es bien sabido que los datos utilizados para entrenar grandes modelos de lenguaje (LLM) y otros modelos de transformación que soportan productos como ChatGPT, Stable Diffusion y Midjourney provienen originalmente de fuentes humanas. Estas fuentes incluyen libros, artículos, fotografías y otras obras que son completamente originales humanas.

Los tamaños de los parámetros de los modelos a gran escala continúan creciendo, de miles de millones y decenas de miles de millones a cientos de miles de millones. A esta explosión se suma la cantidad de datos necesarios para entrenar la IA, que crece exponencialmente. Tomando como ejemplo GPT de OpenAI, de GPT-1 a GPT-3, el tamaño del conjunto de datos de entrenamiento creció drásticamente de 4,5 GB a 570 GB.

No hace mucho, en la conferencia Data+AI organizada por Databricks, Marc Andreessen, fundador de a16z, opinó que los datos masivos acumulados por Internet en las últimas dos décadas son una razón importante del auge de una nueva ola de IA. Considera que los datos son excelentes fuentes de material de aprendizaje para el entrenamiento de la IA.

Sin embargo, a pesar de la enorme cantidad de datos útiles e inútiles dejados por los internautas en la web, estos datos pueden estar a punto de agotarse para el entrenamiento de la IA.

Un artículo publicado por Epoch, una organización de investigación y predicción de inteligencia artificial, predice que los datos textuales de alta calidad se agotarán entre 2023 y 2027.

Aunque el equipo de investigación reconoce que los métodos analíticos tienen serias limitaciones y que las imprecisiones del modelo son altas, es difícil negar que la IA está consumiendo conjuntos de datos a un ritmo alarmante.

Recientemente, investigadores de la Universidad de Cambridge, la Universidad de Oxford, la Universidad de Toronto y otras universidades publicaron un artículo señalando que usar contenido generado por IA para entrenar IA puede conducir al colapso de nuevos modelos.

Los investigadores concluyeron: “Aprender de datos generados por otros modelos conduce al colapso del modelo – un proceso de degradación en el que el modelo olvida la verdadera distribución de datos subyacente con el tiempo. Este proceso es inevitable, incluso en una situación de entrenamiento ideal durante mucho tiempo”.

¿Cuál es la razón por la que usar “datos generados” para entrenar la IA provocará el colapso del modelo? ¿Hay alguna forma de prevenirlo?

En esta etapa, la IA todavía está en la imitación primitiva del pensamiento humano y su núcleo sigue siendo un programa estadístico. Los investigadores creen que entrenar la IA con contenido generado por IA producirá un “error de aproximación estadística”. Esto se debe a que en el proceso estadístico, el contenido con mayor probabilidad se refuerza aún más, y el contenido con menor probabilidad se ignora continuamente, lo cual es la causa principal del colapso del modelo.

Afecta el rendimiento, la fiabilidad y la seguridad del modelo. Los investigadores advierten que el colapso del modelo es un fenómeno grave que necesita la atención de los desarrolladores y usuarios de LLM. “Creemos que este problema se convertirá en uno de los principales desafíos para la comunidad de aprendizaje automático en los próximos años”, dijeron.

Pero no todo está perdido.

El primer enfoque es el aislamiento de datos. Para abordar el colapso del modelo, el equipo de investigación sugiere separar las fuentes de datos limpias generadas artificialmente del contenido generado por IA para evitar la contaminación de los datos limpios por parte de AIGC.

El segundo es el uso de datos sintéticos. De hecho, los datos generados específicamente para la IA ya se utilizan ampliamente para el entrenamiento de la IA. Para algunos profesionales, la preocupación actual sobre que los datos generados por IA conduzcan al colapso del modelo puede ser exagerada. Por lo tanto, la clave es establecer un sistema efectivo para confirmar la parte válida de los datos generados por IA y proporcionar retroalimentación basada en la efectividad del modelo entrenado. El uso de datos sintéticos por parte de OpenAI para el entrenamiento de modelos se ha convertido en un consenso dentro de la industria de la IA.

En conclusión, a pesar del problema del agotamiento de los datos humanos, el entrenamiento de la IA no carece de soluciones. Mediante el aislamiento de datos y el uso de datos sintéticos, el problema del colapso del modelo se puede superar eficazmente y se puede asegurar el desarrollo continuo de la IA.

Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo

Resumen de señal

Huella operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo