Baichuan Intelligence, une start-up fondée par Wang Xiaochuan, le fondateur de Sogou, a
présenté son modèle de langage à grande échelle de nouvelle génération Baichuan-13B.
Baichuan Intelligence, une start-up fondée par Wang Xiaochuan, le fondateur de Sogou, a
présenté son modèle de langage à grande échelle de nouvelle génération Baichuan-13B. Wang, un prodige de l'informatique de l'Université Tsinghua, vise à créer la version chinoise d'OpenAI. Baichuan est considérée comme l'un des développeurs les plus prometteurs de Chine dans le domaine des grands modèles de langage (LLM). Le modèle, basé sur l'architecture Transformer comme GPT d'OpenAI, possède 13 milliards de paramètres et est entraîné sur des données en chinois et en anglais. Baichuan-13B est open source et optimisé pour les applications commerciales.
Des données d'entraînement comparables à GPT-3.5
Baichuan-13B est entraîné sur 1,4 billion de tokens, surpassant le modèle LLaMa de Meta, qui utilise 1 billion de tokens pour son modèle à 13 milliards de paramètres. Wang a exprimé son intention de lancer un modèle à grande échelle comparable à GPT-3.5 d'OpenAI d'ici la fin de l'année. En peu de temps, Baichuan a réalisé des progrès significatifs, portant son équipe à 50 personnes fin avril et lançant son premier LLM, Baichuan-7B, en juin.
Baichuan-13B est désormais disponible gratuitement pour les universitaires et développeurs approuvés qui souhaitent l'utiliser à des fins commerciales. Le modèle propose notamment des variantes pouvant fonctionner sur du matériel grand public, répondant ainsi aux contraintes posées par les sanctions des États-Unis sur les puces d'IA à l'encontre de la Chine.
Baichuan-7B est un modèle de langage de pré-entraînement à grande échelle, open source, conçu avec soin par les esprits visionnaires de Baichuan Intelligent Technology. Reposant sur l'architecture du modèle Transformer, ce modèle exploite la puissance impressionnante de 7 milliards de paramètres et a été nourri avec l'exposition à un nombre stupéfiant de 1,2 billion de tokens. Grâce à sa polyvalence inébranlable, Baichuan-7B prend en charge avec aisance le chinois et l'anglais.
Des scores de performance élevés dans tous les domaines
Largement reconnu comme un leader parmi les modèles de taille similaire, Baichuan-7B a triomphé dans les benchmarks chinois et anglais les plus réputés, notamment les évaluations C-EVAL et MMLU, gravant son nom au sommet de l'excellence linguistique.
Ce modèle surpasse constamment ses homologues de taille de paramètres similaire, régnant en maître en tant que modèle pré-entraîné natif prééminent dans le domaine de la compréhension de la langue chinoise. Lors de l'évaluation AGIEval, Baichuan-7B surpasse les autres prétendants open source, notamment LLaMA-7B, Falcon-7B, Bloom-7B et ChatGLM-6B, avec une marge étonnante, obtenant un score impressionnant de 34,4 points.
Baichuan-7B domine l'examen C-EVAL avec un score imposant de 42,8 points, surpassant les 38,9 points de ChatGLM-6B. Dans l'évaluation Gaokao, le modèle règne en maître avec un score exceptionnel de 36,2 points, établissant fermement sa domination parmi les modèles pré-entraînés de taille de paramètres comparable.
AGIEval, une initiative de benchmark renommée de Microsoft Research Institute, représente un effort exhaustif visant à évaluer les capacités cognitives et de résolution de problèmes des modèles fondamentaux. C-Eval, une création collaborative de l'Université Jiao Tong de Shanghai, de l'Université Tsinghua et de l'Université d'Édimbourg, constitue un examen complet évaluant les prouesses des modèles de langue chinoise, couvrant 52 sujets divers dans divers secteurs.
Le benchmark Gaokao, élaboré par l'estimée équipe de recherche de l'Université Fudan, utilise les questions de l'examen d'entrée à l'université chinoise comme ensemble de données, offrant un examen rigoureux de l'aptitude des grands modèles en matière de compréhension de la langue chinoise et de raisonnement logique.
La maîtrise de Baichuan-7B s'étend sans effort au domaine de l'anglais. Dans la très respectée évaluation MMLU, baichuan-7B impressionne avec un score extraordinaire de 42,5 points, surpassant sans effort le modèle pré-entraîné open source anglais LLaMA-7B et le modèle open source chinois ChatGLM-6B, avec des marges significatives.
Un facteur clé de succès dans la formation des modèles à grande échelle réside dans le corpus d'entraînement lui-même. Baichuan Intelligent Technology construit avec diligence un corpus de pré-entraînement de haute qualité, puisant dans de riches données d'apprentissage en chinois et intégrant de manière transparente des données en anglais de haute qualité. Cette amalgamation de données englobe une vaste gamme de données Internet en chinois et en anglais, des données open source en chinois et en anglais, ainsi qu'un corpus substantiel de connaissances méticuleusement organisées.