Google y Stanford lanzan verificador de hechos de IA

Google and Stanford researchers is a Public briefing based on external evidence, participant context, and relationship signals.

Un reciente desarrollo de Google DeepMind y la Universidad de Stanford presenta el Evaluador de Factualidad Aumentada por Búsqueda (SAFE), una herramienta diseñada para verificar respuestas largas de chatbots de IA. SAFE emplea un proceso de varios pasos, que incluye segmentación, corrección y comparación con los resultados de búsqueda de Google, logrando una tasa de precisión del 76% en la verificación de hechos controvertidos. Esta innovación no solo mejora la precisión en las respuestas generadas por IA, sino que también presenta ventajas económicas, siendo más de 20 veces más barata que la anotación manual. Sin importar cuán potentes sean los chatbots de IA actuales, tiende a existir un comportamiento muy criticado de proporcionar a los usuarios respuestas que son algo convincentes pero factualmente inexactas. En pocas palabras, la IA a veces 'se descarrila' en sus respuestas, incluso 'difundiendo rumores'. Prevenir tal comportamiento en los grandes modelos de IA no es tarea fácil y es un desafío técnico. Sin embargo, según el medio extranjero Marktechpost, Google DeepMind y la Universidad de Stanford parecen haber encontrado una solución. Lea también: La tienda GPT de OpenAI no cumple con las expectativas Lea también: Las agencias federales de EE.UU. ahora requieren un director de IA La herramienta se basa en el Evaluador de Factualidad Aumentada por Búsqueda (SAFE) Los investigadores han presentado una herramienta basada en modelos de lenguaje grandes, el Evaluador de Factualidad Aumentada por Búsqueda (SAFE), que puede verificar respuestas largas generadas por chatbots. Sus resultados de investigación, junto con el código experimental y los conjuntos de datos, se han hecho públicos, haga clic aquí para ver. El sistema analiza, procesa y evalúa las respuestas generadas por los chatbots a través de cuatro pasos para verificar la precisión y autenticidad: segmentar las respuestas en elementos individuales para su verificación, corregir el contenido anterior y luego compararlo con los resultados de búsqueda de Google. Posteriormente, el sistema también verifica la relevancia de cada hecho con la pregunta original. Los investigadores crearon un conjunto de datos llamado LongFact para evaluar su rendimiento Para evaluar su rendimiento, los investigadores crearon un conjunto de datos llamado LongFact que contiene aproximadamente 16,000 hechos y probaron el sistema en 13 modelos de lenguaje grandes de Claude, Gemini, GPT y PaLM-2. Los resultados muestran que en el análisis enfocado de 100 hechos controvertidos, la precisión del juicio de SAFE alcanza el 76% tras una revisión adicional. Al mismo tiempo, el marco también tiene ventajas económicas: es más de 20 veces más barato que la anotación manual. Ver también: Ziggo Group nombra a sus líderes antes de su salida a bolsa en Ámsterdam en 2027.

0.90–1.00	A	High — direct sources
0.75–0.89	A/B	Strong
0.55–0.74	B/C	Medium
0.35–0.54	C/D	Weak–medium
0.10–0.34	D	Weak signal
0.00–0.09	D	Internal monitoring

Investigadores de Google y Stanford lanzan herramienta de verificación de hechos de IA

Sources

Signal Brief

Operating Surface

Market Context

What To Watch

Deeper Trend Context

Strategic Circle Access

Leadership Alliance Access

Strategy Circle Briefing

Leadership Alliance Briefing