Un reciente avance de Google DeepMind y la Universidad de Stanford presenta el Search-Augmented Factuality Evaluator (SAFE), una herramienta diseñada para verificar hechos en respuestas largas generadas por chatbots de IA. SAFE emplea un proceso de varios pasos que incluye segmentación, corrección y comparación con los resultados de búsqueda de Google, logrando una precisión del 76% en la verificación de hechos controvertidos. Esta innovación no solo mejora la exactitud de las respuestas generadas por IA, sino que también ofrece ventajas económicas, siendo más de 20 veces más barata que la anotación manual.

No importa cuán potentes sean los chatbots de IA actuales, tiende a existir un comportamiento muy criticado: proporcionar a los usuarios respuestas que son algo convincentes pero factualmente inexactas. En pocas palabras, la IA a veces 'se descarrila' en sus respuestas, incluso 'difundiendo rumores'. Prevenir tal comportamiento en los grandes modelos de IA no es una tarea fácil y es un desafío técnico. Sin embargo, según el medio extranjero Marktechpost, Google DeepMind y la Universidad de Stanford parecen haber encontrado una solución alternativa.

Lea también: La tienda GPT de OpenAI no cumple con las expectativas Lea también: Las agencias federales de EE. UU. ahora requieren un director de IA La herramienta se basa en el Search-Augmented Factuality Evaluator (SAFE) Los investigadores han presentado una herramienta basada en grandes modelos de lenguaje, el Search-Augmented Factuality Evaluator (SAFE), que puede verificar hechos en respuestas largas generadas por chatbots. Sus resultados de investigación, junto con código experimental y conjuntos de datos, se han hecho públicos; haga clic aquí para verlos.

El sistema analiza, procesa y evalúa las respuestas generadas por los chatbots a través de cuatro pasos para verificar su exactitud y autenticidad: dividir las respuestas en elementos individuales para su verificación, corregir el contenido anterior y luego compararlo con los resultados de búsqueda de Google. Posteriormente, el sistema también verifica la relevancia de cada hecho con respecto a la pregunta original. Los investigadores crearon un conjunto de datos llamado LongFact para evaluar su rendimiento.

Para evaluar su rendimiento, los investigadores crearon un conjunto de datos llamado LongFact que contiene aproximadamente 16.000 hechos y probaron el sistema en 13 grandes modelos de lenguaje de Claude, Gemini, GPT y PaLM-2. Los resultados muestran que en el análisis centrado de 100 hechos controvertidos, la precisión de juicio de SAFE alcanza el 76% tras una revisión adicional. Al mismo tiempo, el marco también tiene ventajas económicas: es más de 20 veces más barato que la anotación manual.