Google et Stanford: un outil de vérification des faits pour l'IA

Google and Stanford researchers is a Public briefing based on external evidence, participant context, and relationship signals.

Un développement récent de Google DeepMind et de l’Université Stanford présente le Search-Augmented Factuality Evaluator (SAFE), un outil conçu pour vérifier les faits des longues réponses des chatbots IA. SAFE utilise un processus en plusieurs étapes, comprenant la segmentation, la correction et la comparaison avec les résultats de recherche Google, atteignant un taux de précision de 76 % dans la vérification des faits controversés. Cette innovation améliore non seulement la précision des réponses générées par l’IA, mais présente également des avantages économiques, étant plus de 20 fois moins chère que l’annotation manuelle. Peu importe la puissance des chatbots IA actuels, il existe un comportement très critiqué consistant à fournir aux utilisateurs des réponses quelque peu convaincantes mais factuellement inexactes. En termes simples, l’IA « déraille » parfois dans ses réponses, allant même jusqu’à « répandre des rumeurs ». Empêcher un tel comportement dans les grands modèles d’IA n’est pas une tâche facile et constitue un défi technique. Cependant, selon le média étranger Marktechpost, Google DeepMind et l’Université Stanford semblent avoir trouvé une solution de contournement. À lire aussi: La boutique GPT d’OpenAI ne répond pas aux attentes À lire aussi: Les agences fédérales américaines doivent désormais avoir un chef de l’IA L’outil est basé sur le Search-Augmented Factuality Evaluator (SAFE) Les chercheurs ont introduit un outil basé sur de grands modèles de langage, le Search-Augmented Factuality Evaluator (SAFE), capable de vérifier les longues réponses générées par les chatbots. Leurs résultats de recherche, ainsi que le code expérimental et les ensembles de données, ont désormais été rendus publics, cliquez ici pour les consulter. Le système analyse, traite et évalue les réponses générées par les chatbots en quatre étapes pour vérifier l’exactitude et l’authenticité: segmentation des réponses en éléments individuels à vérifier, correction du contenu ci-dessus, puis comparaison avec les résultats de recherche Google. Ensuite, le système vérifie également la pertinence de chaque fait par rapport à la question d’origine. Les chercheurs ont créé un ensemble de données appelé LongFact pour évaluer ses performances Pour évaluer ses performances, les chercheurs ont créé un ensemble de données appelé LongFact contenant environ 16 000 faits et ont testé le système sur 13 grands modèles de langage de Claude, Gemini, GPT et PaLM-2. Les résultats montrent que dans l’analyse ciblée de 100 faits controversés, la précision du jugement de SAFE atteint 76 % lors d’un examen plus approfondi. En même temps, le cadre présente également des avantages économiques: il est plus de 20 fois moins cher que l’annotation manuelle. Voir aussi: Ziggo Group nomme ses dirigeants avant l'introduction en Bourse à Amsterdam en 2027.

0.90–1.00	A	High — direct sources
0.75–0.89	A/B	Strong
0.55–0.74	B/C	Medium
0.35–0.54	C/D	Weak–medium
0.10–0.34	D	Weak signal
0.00–0.09	D	Internal monitoring

Des chercheurs de Google et Stanford lancent un outil de vérification des faits par IA

Sources

Signal Brief

Operating Surface

Market Context

What To Watch

Deeper Trend Context

Strategic Circle Access

Leadership Alliance Access

Strategy Circle Briefing

Leadership Alliance Briefing