Google DeepMind presenta verificador IA sobrehumano SAFE

Google DeepMind presenta un verificador de hechos de IA “sobrehumano”, “SAFE”

Google DeepMind ha presentado un sistema de IA “sobrehumano” que puede superar a los verificadores de hechos humanos en la evaluación de la precisión de la información generada por modelos de lenguaje grandes. El estudio, titulado “Long-form factuality in large language models”, introduce SAFE, un método que descompone el texto en hechos y utiliza Google Search para verificar cada afirmación. SAFE igualó las calificaciones humanas el 72% de las veces y fue correcto en el 76% de los desacuerdos.

Search-Augmented Factuality Evaluator (SAFE) es un método que utiliza un modelo de lenguaje grande (LLM) para descomponer el texto generado en hechos individuales.
Este sistema de IA “sobrehumano” puede mejorar la verificación de hechos, la eficiencia de costos y la precisión.
Gary Marcus, un destacado investigador de IA, sugirió que “sobrehumano” podría simplemente significar mejor que un trabajador colectivo mal pagado, en lugar de un verdadero verificador de hechos experto.

Search-Augmented Factuality Evaluator (SAFE)

Este estudio, titulado “Long-form factuality in large language models”, presenta SAFE como un método para descomponer el texto generado en hechos individuales utilizando modelos de lenguaje grandes. Luego utiliza los resultados de Google Search para determinar la precisión de cada afirmación.

Los investigadores enfrentaron a SAFE con anotadores humanos en un conjunto de datos que contenía alrededor de 16.000 hechos y encontraron que las calificaciones de SAFE coincidían con las calificaciones humanas el 72% de las veces. Aún más impresionante, cuando hubo desacuerdos entre SAFE y los evaluadores humanos, el juicio de SAFE fue correcto en el 76% de los casos.

Lea también:Microsoft contrata al cofundador de DeepMind, Mustafa Suleyman, como CEO de una nueva unidad de IA

El rendimiento ‘sobrehumano’ causó controversia

Si bien los investigadores afirman que los agentes de modelos de lenguaje grandes pueden lograr un rendimiento de calificación “sobrehumano”, algunos expertos cuestionan qué significa realmente “sobrehumano” aquí.

El investigador de IA Gary Marcus sugiere que “sobrehumano” puede simplemente significar mejor que un trabajador colectivo mal pagado, en lugar de un verdadero verificador de hechos experto.

Marcus argumenta que comparar SAFE con verificadores de hechos humanos expertos es crucial para demostrar verdaderamente su rendimiento sobrehumano.

Ventajas de SAFE

Una clara ventaja de SAFE es el costo: los investigadores encontraron que usar el sistema de IA era aproximadamente 20 veces más barato que usar verificadores de hechos humanos. A medida que la cantidad de información continúa creciendo, es cada vez más importante adoptar un enfoque de bajo costo y alto rendimiento.

El equipo de DeepMind también utilizó SAFE para evaluar la precisión factual de 4 familias (Gemini, GPT, Claude y PaLM-2) de 13 modelos de lenguaje principales. Descubrieron que los modelos más grandes generalmente producen menos errores factuales.

Sin embargo, incluso los modelos con mejor rendimiento todavía producían un gran número de declaraciones falsas.

Esto destaca el riesgo de una dependencia excesiva de los modelos de lenguaje que pueden expresar con fluidez información inexacta. Las herramientas automatizadas de verificación de hechos como SAFE pueden desempeñar un papel clave en la mitigación de estos riesgos.

Google DeepMind presenta un verificador de hechos de IA “sobrehumano”, “SAFE”

Search-Augmented Factuality Evaluator (SAFE)

El rendimiento ‘sobrehumano’ causó controversia

Ventajas de SAFE

Resumen de señal

Superficie operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo