¿Es el big data el futuro de la IA?

El gigante tecnológico Tencent celebró su Hi Tech Day y la Conferencia Digital Open Things 2023 en el Centro Nacional de Convenciones de China en Pekín el 14 de diciembre, con el lema “La inteligencia emerge y abre todas las cosas”. Jiang Chunyu dijo que el desarrollo de la IA en China necesita urgentemente conjuntos de datos entrenables y de alta calidad. Jiang reveló que pronto se publicará un libro blanco sobre la gobernanza de datos de IA para establecer un sistema de métodos y reglas en este campo.

China está acelerando su transformación digital y reduciendo la brecha digital, con un fuerte apoyo a la aplicación de nuevas tecnologías como datos, computación en la nube, inteligencia artificial y computación cuántica. El gigante tecnológico Tencent celebró el Hi Tech Day y la Conferencia Digital Open Things 2023 con el lema “La inteligencia emerge, lo digital abre todas las cosas” en el Centro Nacional de Convenciones de China en Pekín el 14 de diciembre, invitando a grandes nombres de todos los ámbitos para debatir la tendencia de la inteligencia artificial.

En la conferencia, Jiang Chunyu, director del Departamento de Datos en la Nube y Blockchain de la Academia China de Investigación de Información y Comunicaciones, pronunció un discurso sobre el tema “La gobernanza de datos de IA suscita reflexión”. Una gran base de datos de alta calidad es el próximo objetivo evolutivo “No hay muchos conjuntos de datos entrenables y de alta calidad en el mercado, especialmente en el contexto chino, donde muchos datos de alta calidad están ocultos.

Necesitamos urgentemente un modelo comercializable y abierto, o qué modelo puede liberar los datos y ser utilizado por todos.” Jiang Chunyu, director del Departamento de Datos en la Nube y Blockchain de la Academia China de Investigación de Información y Comunicaciones Desde 2018, la IA general está liderando la ola tecnológica. Todas las partes se han volcado e invertido dinero en el entrenamiento de grandes modelos, creando una tendencia competitiva masiva. Sin embargo, Jiang Chunyu cree que el desarrollo nacional debería centrarse en la mejora de los datos, no solo en cantidad, sino también en calidad.

China, como potencia natural de datos, en lugar de en la brecha de algoritmos y aritmética entre las partes, que no es grande, el enorme costo del campo “involución, más que mejorar la calidad de los datos, puede traer mejores resultados. Enumeró para la audiencia los conjuntos de datos a gran escala, diversos y de alta calidad necesarios para el entrenamiento de grandes modelos: GPT-1 hace cuatro o cinco años requería 4,8 GB de datos de alta calidad, GPT-2 era de 40 GB, GPT-3 de 570 GB, y este año, Meta lanzó un gran modelo cuya base de datos alcanzó los asombrosos 4.000 GB de tamaño.

Jiang expresó su preocupación: “No hay muchos conjuntos de datos entrenables y de alta calidad en el mercado, especialmente en el contexto chino, donde muchos datos de alta calidad están ocultos.

Necesitamos urgentemente un modelo comercializable y abierto, o qué modelo puede liberar los datos y ser utilizado por todos.” Lea también: Asistente de IA Amazon Q: AWS lanza un enfoque revolucionario de consulta de datos Jiang Chunyu Es necesario establecer con urgencia un sistema de gestión, seguridad y protección de datos Jiang estuvo presente para plantear tres problemas en el desarrollo actual de la industria: La calidad de los datos está generalmente sesgada Para transformar conjuntos de datos de mala calidad en alta calidad, Jiang enfatizó el establecimiento de un sistema integrado de ingeniería de datos y operaciones de I+D de

DevOps.

Desde la entrega de I+D, el mantenimiento de operaciones de datos hasta la operación de valor, se forma una cadena de producción o cadena de suministro de datos completa para que los datos se entreguen de manera ordenada y se unan gradualmente para formar una evidencia publicada de producción, lo que es diferente del procesamiento tradicional de datos estructurados del pasado. También advirtió a las empresas presentes que no invirtieran mucho tiempo en el entrenamiento de modelos antes de completar la mejora de la calidad de los datos; un entrenamiento puede costar decenas de millones de dólares sin resultado.

Sorprendentemente, su equipo está organizando la metodología y el marco de los métodos de entrenamiento de IA, completando un libro blanco sobre la gobernanza de datos de inteligencia artificial y estableciendo un sistema de métodos y reglas en esta área. Cuestiones de seguridad y privacidad Jiang dijo que “Hay una gran cantidad de problemas de seguridad y privacidad involucrados en todo el proceso de entrenamiento, incluidos los derechos de ejecución, violaciones en la recopilación de información personal, transmisión insegura de datos, manipulación de información de datos y almacenamiento y transmisión inseguros de modelos.

Además, también hay problemas como ataques de Prompt y violaciones de contenido generado. Para garantizar la protección de la privacidad y la seguridad durante todo el ciclo de vida en la producción, uso y operación de modelos, necesitamos dominar una variedad de tecnologías, establecer reglas apropiadas y configurar las capacidades de auditores y monitores en su conjunto. Esta es un área completamente nueva que requiere atención e inversión para enfrentar los desafíos cambiantes de seguridad y privacidad de datos.” Gestión de contenido generado y sintético Incluso los datos sintéticos no pueden ser un fraude.

Por lo tanto, la medición de la veracidad y precisión es particularmente crítica. Además, la detección y prevención de daños también es una tarea urgente. Actualmente, muchos modelos a gran escala son denunciados precisamente por problemas en el contenido generado, como acoso, violencia y discriminación. Estos problemas deben ser controlados de manera efectiva.

Por separado, los requisitos de autenticidad y precisión pueden limitarse mediante reglas; los requisitos para la generación de contenido, los mecanismos de monitoreo y la evaluación de autenticidad pueden realizarse mediante la detección automática de identificación y filtrado de contenido combinado con auditoría manual; y la prevención de problemas de daños puede gestionarse eficazmente mediante el uso de restricciones en las reglas, predicción de líneas, evaluación empírica de privacidad y pruebas de ataques a la privacidad.

¿Es el big data el futuro de la IA?

Resumen de señal

Superficie operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo