Baichuan Intelligence, una startup fundada por Wang Xiaochuan, fundador de Sogou, ha
presentado su modelo de lenguaje de gran escala de próxima generación Baichuan-13B.
Baichuan Intelligence, una startup fundada por Wang Xiaochuan, fundador de Sogou, ha
presentado su modelo de lenguaje de gran escala de próxima generación Baichuan-13B. Wang, un prodigio de las ciencias de la computación de la Universidad de Tsinghua, aspira a establecer la versión china de OpenAI. Se considera a Baichuan como uno de los desarrolladores más prometedores de China en el campo de los modelos de lenguaje de gran escala
(LLMs). El modelo, basado en la arquitectura Transformer como GPT de OpenAI, tiene 13 mil millones de
parámetros y está entrenado con datos en chino e inglés. Baichuan-13B es de código abierto y
está optimizado para aplicaciones comerciales.
Datos de entrenamiento comparables a GPT 3.5
Baichuan-13B se entrena con 1.4 billones de tokens, superando a LLaMa de Meta, que utiliza 1 billón de
tokens en su modelo de 13 mil millones de parámetros. Wang ha expresado su intención de lanzar un modelo a gran
escala comparable a GPT-3.5 de OpenAI para finales de este año. En un corto período,
Baichuan ha logrado avances significativos, ampliando su equipo a 50 personas a finales de abril
y lanzando su primer LLM, Baichuan-7B, en junio.​
Baichuan-13B ahora está disponible de forma gratuita para académicos y desarrolladores aprobados que deseen utilizarlo
con fines comerciales. Cabe destacar que el modelo ofrece variantes que pueden ejecutarse en hardware de
consumo, abordando las limitaciones impuestas por las sanciones de chips de IA de EE. UU. a China.
Baichuan-7B es un modelo de lenguaje de preentrenamiento a gran escala de código abierto, meticulosamente elaborado por
las mentes visionarias de Baichuan Intelligent Technology. Arraigado en la arquitectura del
modelo Transformer, este modelo aprovecha unos impresionantes 7 mil millones de parámetros y ha sido
alimentado con la exposición a la asombrosa cifra de 1.2 billones de tokens. Con su inquebrantable versatilidad,
Baichuan-7B admite con soltura los idiomas chino e inglés.
Altas puntuaciones de rendimiento en todos los ámbitos
Debidamente reconocido como líder entre modelos de escala similar, Baichuan-7B ha resultado
victorioso en prestigiosas pruebas de referencia en chino e inglés, incluidas las estimadas evaluaciones C-EVAL y
MMLU, grabando su nombre en la cima de la excelencia lingüística.
Este modelo supera constantemente a sus homólogos de magnitud de parámetros similar, reinando
supremo como el modelo preentrenado nativo preeminente en el ámbito de la comprensión del idioma chino.
En la evaluación AGIEval, Baichuan-7B supera a otros contendientes de código abierto,
incluidos LLaMA-7B, Falcon-7B, Bloom-7B y ChatGLM-6B, por un margen asombroso,
obteniendo una impresionante puntuación de 34.4 puntos.
Baichuan-7B conquista el examen C-EVAL con una puntuación dominante de 42.8 puntos,
superando los 38.9 puntos de ChatGLM-6B. En la evaluación Gaokao, el modelo reina supremo con
una puntuación excepcional de 36.2 puntos, estableciendo firmemente su dominio entre los modelos preentrenados
de escala de parámetros comparable.
AGIEval, una célebre iniciativa de evaluación comparativa del Microsoft Research Institute, representa un
esfuerzo exhaustivo para evaluar las capacidades cognitivas y de resolución de problemas de los modelos fundamentales.
C-Eval, una creación colaborativa de la Universidad Shanghai Jiao Tong, la Universidad Tsinghua
y la Universidad de Edimburgo, sirve como un examen integral que evalúa la destreza
de los modelos de lenguaje chino, abarcando 52 materias diversas en varias industrias.
El benchmark Gaokao, elaborado por el estimado equipo de investigación de la Universidad Fudan, aprovecha
las preguntas del examen de ingreso a la universidad china como conjunto de datos, ofreciendo un riguroso
examen de la aptitud de los grandes modelos en comprensión del idioma chino y razonamiento
lógico.
El dominio de Baichuan-7B se extiende sin esfuerzo al ámbito del inglés. En la estimada evaluación
MMLU, Baichuan-7B sorprende con una puntuación extraordinaria de 42.5 puntos, superando fácilmente
al modelo preentrenado de código abierto en inglés, LLaMA-7B, y al modelo de código abierto chino,
ChatGLM-6B, por márgenes significativos.
Un determinante clave del éxito en el entrenamiento de modelos a gran escala reside en el propio corpus de entrenamiento.
Baichuan Intelligent Technology construye diligentemente un corpus de preentrenamiento de alta calidad,
basándose en ricos datos de aprendizaje en chino e integrando a la perfección datos de alta calidad en inglés.
Esta amalgama de datos abarca una amplia gama de datos de internet en chino e inglés, datos de código abierto
en chino e inglés, junto con un corpus sustancial de conocimiento meticulosamente curado.