- Search-Augmented Factuality Evaluator (SAFE) es un método que utiliza un modelo de lenguaje grande (LLM) para descomponer el texto generado en hechos individuales.
- Este sistema de IA “sobrehumano” puede mejorar la verificación de hechos, la eficiencia de costos y la precisión.
- Gary Marcus, un destacado investigador de IA, sugirió que “sobrehumano” podría simplemente significar mejor que un trabajador colectivo mal pagado, en lugar de un verdadero verificador de hechos experto.
Google DeepMind ha presentado un sistema de IA “sobrehumano” que puede superar a los verificadores de hechos humanos en la evaluación de la precisión de la información generada por modelos de lenguaje grandes.
Search-Augmented Factuality Evaluator (SAFE)
Este estudio, titulado “Long-form factuality in large language models”, presenta SAFE como un método para descomponer el texto generado en hechos individuales utilizando modelos de lenguaje grandes. Luego utiliza los resultados de Google Search para determinar la precisión de cada afirmación.
Los investigadores enfrentaron a SAFE con anotadores humanos en un conjunto de datos que contenía alrededor de 16.000 hechos y encontraron que las calificaciones de SAFE coincidían con las calificaciones humanas el 72% de las veces. Aún más impresionante, cuando hubo desacuerdos entre SAFE y los evaluadores humanos, el juicio de SAFE fue correcto en el 76% de los casos.
Lea también:Microsoft contrata al cofundador de DeepMind, Mustafa Suleyman, como CEO de una nueva unidad de IA
El rendimiento ‘sobrehumano’ causó controversia
Si bien los investigadores afirman que los agentes de modelos de lenguaje grandes pueden lograr un rendimiento de calificación “sobrehumano”, algunos expertos cuestionan qué significa realmente “sobrehumano” aquí.
El investigador de IA Gary Marcus sugiere que “sobrehumano” puede simplemente significar mejor que un trabajador colectivo mal pagado, en lugar de un verdadero verificador de hechos experto.
Marcus argumenta que comparar SAFE con verificadores de hechos humanos expertos es crucial para demostrar verdaderamente su rendimiento sobrehumano.
Ventajas de SAFE
Una clara ventaja de SAFE es el costo: los investigadores encontraron que usar el sistema de IA era aproximadamente 20 veces más barato que usar verificadores de hechos humanos. A medida que la cantidad de información continúa creciendo, es cada vez más importante adoptar un enfoque de bajo costo y alto rendimiento.
El equipo de DeepMind también utilizó SAFE para evaluar la precisión factual de 4 familias (Gemini, GPT, Claude y PaLM-2) de 13 modelos de lenguaje principales. Descubrieron que los modelos más grandes generalmente producen menos errores factuales.
Sin embargo, incluso los modelos con mejor rendimiento todavía producían un gran número de declaraciones falsas.
Esto destaca el riesgo de una dependencia excesiva de los modelos de lenguaje que pueden expresar con fluidez información inexacta. Las herramientas automatizadas de verificación de hechos como SAFE pueden desempeñar un papel clave en la mitigación de estos riesgos.

