Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo es perfilado por BTW Media porque la evidencia publicada lo vincula con infraestructura de internet, gobernanza, dependencias operativas o visibilidad de mercado.
Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo se rastrea como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.
Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo tiene relevancia de fuente pública para operaciones de red, gobernanza, mapeo de dependencias o estructura de mercado.
Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo se rastrea como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.
Mercado enmarca la evidencia de este archivo.
La tecnología ChatGPT de OpenAI se ha vuelto viral en menos de un año y está impactando los patrones de trabajo y el futuro de la industria. Sin embargo, el agotamiento de los datos de alta calidad para el entrenamiento de la IA amenaza con provocar un colapso de los modelos. Investigadores advierten que usar contenido generado por IA para entrenar nuevas IA conduce a la degradación del modelo. Se exploran soluciones como el aislamiento de datos y el uso de datos sintéticos.
Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo conlleva impacto Medio en este archivo.
Varias fuentes públicas
La tecnología ChatGPT de OpenAI se ha vuelto viral en menos de un año y ya está teniendo un impacto en los patrones de trabajo y el futuro de la industria.
La tecnología ChatGPT de OpenAI se ha vuelto viral en menos de un año y ya está teniendo un impacto en los patrones de trabajo y el futuro de la industria. Dentro de algunas de las empresas líderes del mundo, hasta la mitad de los empleados ya utilizan este tipo de tecnología a diario. Innumerables empresas han invertido en el campo de la IA, compitiendo por lanzar nuevos productos, particularmente en Internet, educación, juegos y otras industrias en crecimiento.
Es bien sabido que los datos utilizados para entrenar grandes modelos de lenguaje (LLM) y otros modelos de transformación que soportan productos como ChatGPT, Stable Diffusion y Midjourney provienen originalmente de fuentes humanas. Estas fuentes incluyen libros, artículos, fotografías y otras obras que son completamente originales humanas.
Los tamaños de los parámetros de los modelos a gran escala continúan creciendo, de miles de millones y decenas de miles de millones a cientos de miles de millones. A esta explosión se suma la cantidad de datos necesarios para entrenar la IA, que crece exponencialmente. Tomando como ejemplo GPT de OpenAI, de GPT-1 a GPT-3, el tamaño del conjunto de datos de entrenamiento creció drásticamente de 4,5 GB a 570 GB.
No hace mucho, en la conferencia Data+AI organizada por Databricks, Marc Andreessen, fundador de a16z, opinó que los datos masivos acumulados por Internet en las últimas dos décadas son una razón importante del auge de una nueva ola de IA. Considera que los datos son excelentes fuentes de material de aprendizaje para el entrenamiento de la IA.
Sin embargo, a pesar de la enorme cantidad de datos útiles e inútiles dejados por los internautas en la web, estos datos pueden estar a punto de agotarse para el entrenamiento de la IA.
Un artículo publicado por Epoch, una organización de investigación y predicción de inteligencia artificial, predice que los datos textuales de alta calidad se agotarán entre 2023 y 2027.
Aunque el equipo de investigación reconoce que los métodos analíticos tienen serias limitaciones y que las imprecisiones del modelo son altas, es difícil negar que la IA está consumiendo conjuntos de datos a un ritmo alarmante.
Recientemente, investigadores de la Universidad de Cambridge, la Universidad de Oxford, la Universidad de Toronto y otras universidades publicaron un artículo señalando que usar contenido generado por IA para entrenar IA puede conducir al colapso de nuevos modelos.
Los investigadores concluyeron: “Aprender de datos generados por otros modelos conduce al colapso del modelo – un proceso de degradación en el que el modelo olvida la verdadera distribución de datos subyacente con el tiempo. Este proceso es inevitable, incluso en una situación de entrenamiento ideal durante mucho tiempo”.
¿Cuál es la razón por la que usar “datos generados” para entrenar la IA provocará el colapso del modelo? ¿Hay alguna forma de prevenirlo?
En esta etapa, la IA todavía está en la imitación primitiva del pensamiento humano y su núcleo sigue siendo un programa estadístico. Los investigadores creen que entrenar la IA con contenido generado por IA producirá un “error de aproximación estadística”. Esto se debe a que en el proceso estadístico, el contenido con mayor probabilidad se refuerza aún más, y el contenido con menor probabilidad se ignora continuamente, lo cual es la causa principal del colapso del modelo.
Afecta el rendimiento, la fiabilidad y la seguridad del modelo. Los investigadores advierten que el colapso del modelo es un fenómeno grave que necesita la atención de los desarrolladores y usuarios de LLM. “Creemos que este problema se convertirá en uno de los principales desafíos para la comunidad de aprendizaje automático en los próximos años”, dijeron.
Pero no todo está perdido.
El primer enfoque es el aislamiento de datos. Para abordar el colapso del modelo, el equipo de investigación sugiere separar las fuentes de datos limpias generadas artificialmente del contenido generado por IA para evitar la contaminación de los datos limpios por parte de AIGC.
El segundo es el uso de datos sintéticos. De hecho, los datos generados específicamente para la IA ya se utilizan ampliamente para el entrenamiento de la IA. Para algunos profesionales, la preocupación actual sobre que los datos generados por IA conduzcan al colapso del modelo puede ser exagerada. Por lo tanto, la clave es establecer un sistema efectivo para confirmar la parte válida de los datos generados por IA y proporcionar retroalimentación basada en la efectividad del modelo entrenado. El uso de datos sintéticos por parte de OpenAI para el entrenamiento de modelos se ha convertido en un consenso dentro de la industria de la IA.
En conclusión, a pesar del problema del agotamiento de los datos humanos, el entrenamiento de la IA no carece de soluciones. Mediante el aislamiento de datos y el uso de datos sintéticos, el problema del colapso del modelo se puede superar eficazmente y se puede asegurar el desarrollo continuo de la IA.
Resumen de señal
- Señal: Crisis de IA causada por el agotamiento de datos: cómo salvar un inminente colapso del modelo
- Tipo de señal: Tema relacionado
- Región: Global
- Clase de mercado: Tendencias de servicios en la nube globales
Superficie operativa
- Las fuentes publicadas deben identificar a las partes afectadas, la superficie operativa y la exposición de mercado antes de tratar este mapa de tendencia como completo.
Contexto de mercado
- Relevancia operativa: Medio
- Horizonte: Próximo trimestre
Qué vigilar
- Vigilar declaraciones oficiales, actualizaciones regulatorias, exposición de clientes o socios y divulgaciones posteriores.
Briefing para miembros
Contexto de tendencia profundo
Inicia sesión con el nivel de membresía adecuado para desbloquear el briefing completo y las notas de fuente.
Solo para Círculo Estratégico
Círculo Estratégico
Abierto a todos los lectores. Desbloquea briefings de tendencia después de unirte e iniciar sesión.
Unirse al Círculo EstratégicoSolo para Alianza de Liderazgo
Alianza de Liderazgo
Para operadores, inversores y equipos de política que necesitan evidencia relacional, rutas de fallo y notas de fuente. Inicia sesión para desbloquear.
Unirse a la Alianza de Liderazgo
