Google et Stanford lancent un outil de vérification des faits

Un développement récent de Google DeepMind et de l'Université Stanford présente le Search-Augmented Factuality Evaluator (SAFE), un outil conçu pour vérifier les faits dans les longues réponses des chatbots IA. SAFE utilise un processus en plusieurs étapes, incluant la segmentation, la correction et la comparaison avec les résultats de recherche Google, atteignant un taux de précision de 76 % dans la vérification de faits controversés. Cette innovation améliore non seulement la précision des réponses générées par l'IA, mais présente également des avantages économiques, étant plus de 20 fois moins chère que l'annotation manuelle.

Peu importe la puissance des chatbots IA actuels, ils ont tendance à adopter un comportement très critiqué consistant à fournir aux utilisateurs des réponses quelque peu convaincantes mais factuellement inexactes. En bref, l’IA « déraille » parfois dans ses réponses, allant jusqu’à « propager des rumeurs ». Empêcher un tel comportement dans les grands modèles d'IA n'est pas une tâche facile et constitue un défi technique. Cependant, selon le média étranger Marktechpost, Google DeepMind et l'Université Stanford semblent avoir trouvé une solution de contournement.

Lire aussi: La boutique GPT d’OpenAI ne répond pas aux attentes Lire aussi: Les agences fédérales américaines doivent désormais avoir un responsable IA L'outil est basé sur le Search-Augmented Factuality Evaluator (SAFE) Les chercheurs ont présenté un outil basé sur les grands modèles de langage, le Search-Augmented Factuality Evaluator (SAFE), capable de vérifier les faits dans les longues réponses générées par les chatbots. Leurs résultats de recherche, ainsi que le code expérimental et les jeux de données, ont été rendus publics, cliquez ici pour voir.

Le système analyse, traite et évalue les réponses générées par les chatbots en quatre étapes pour vérifier l'exactitude et l'authenticité: segmentation des réponses en éléments individuels pour vérification, correction du contenu ci-dessus, puis comparaison avec les résultats de recherche Google. Ensuite, le système vérifie également la pertinence de chaque fait par rapport à la question d'origine.

Les chercheurs ont créé un jeu de données appelé LongFact pour évaluer ses performances Pour évaluer ses performances, les chercheurs ont créé un jeu de données appelé LongFact contenant environ 16 000 faits et ont testé le système sur 13 grands modèles de langage de Claude, Gemini, GPT et PaLM-2. Les résultats montrent que dans l'analyse ciblée de 100 faits controversés, la précision de jugement de SAFE atteint 76 % après un examen plus approfondi. En même temps, le cadre présente également des avantages économiques: il est plus de 20 fois moins cher que l'annotation manuelle.

Des chercheurs de Google et Stanford lancent un outil de vérification des faits par IA

Brief signal

Empreinte opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership