- Search-Augmented Factuality Evaluator (SAFE) est une méthode qui utilise un grand modèle de langage (LLM) pour décomposer le texte généré en faits individuels.
- Ce système d'IA « superhumain » peut améliorer la vérification des faits, l'efficacité des coûts et la précision.
- Gary Marcus, un éminent chercheur en IA, a suggéré que « superhumain » pourrait simplement signifier meilleur qu'un travailleur sous-payé, plutôt qu'un véritable vérificateur de faits expert.
Google DeepMind a dévoilé un système d'IA « superhumain » capable de surpasser les vérificateurs de faits humains dans l'évaluation de l'exactitude des informations générées par les grands modèles de langage.
Search-Augmented Factuality Evaluator (SAFE)
Cette étude, intitulée « Long-form factuality in large language models », présente SAFE comme une méthode pour décomposer le texte généré en faits individuels à l'aide de grands modèles de langage. Elle utilise ensuite les résultats de Google Search pour déterminer l'exactitude de chaque affirmation.
Les chercheurs ont opposé SAFE à des annotateurs humains sur un ensemble de données contenant environ 16 000 faits et ont constaté que les évaluations de SAFE correspondaient aux évaluations humaines dans 72 % des cas. Plus impressionnant encore, lorsque les évaluations de SAFE et des humains divergeaient, le jugement de SAFE était correct dans 76 % des cas.
La performance « superhumaine » provoque une controverse
Alors que les chercheurs affirment que les agents de grands modèles de langage peuvent atteindre des performances d'évaluation « superhumaines », certains experts s'interrogent sur la signification réelle de « superhumain » dans ce contexte.
Le chercheur en IA Gary Marcus suggère que « superhumain » pourrait simplement signifier meilleur qu'un travailleur sous-payé, plutôt qu'un véritable vérificateur de faits expert.
Marcus soutient que comparer SAFE à des vérificateurs de faits experts humains est crucial pour démontrer véritablement ses performances superhumaines.
Avantages de SAFE
Un avantage évident de SAFE est le coût – les chercheurs ont constaté que l'utilisation du système d'IA était environ 20 fois moins chère que le recours à des vérificateurs de faits humains. À mesure que le volume d'informations continue de croître, il est de plus en plus important d'adopter une approche à faible coût et à haut rendement.
L'équipe de DeepMind a également utilisé SAFE pour évaluer la précision factuelle de 4 familles (Gemini, GPT, Claude et PaLM-2) de 13 modèles de langage de premier plan. Ils ont constaté que les modèles plus grands produisent généralement moins d'erreurs factuelles.
Cependant, même les modèles les plus performants ont encore produit un grand nombre de fausses déclarations.
Cela souligne le risque d'une dépendance excessive à l'égard des modèles de langage qui peuvent exprimer de manière fluide des informations inexactes. Les outils de vérification automatique des faits comme SAFE peuvent jouer un rôle clé dans l'atténuation de ces risques.

