• El índice de alucinaciones utilizó la métrica de evaluación propietaria de Galileo, la adherencia al contexto, para evaluar las inexactitudes de salida en diferentes longitudes de entrada.
  • Modelos de código cerrado como Claude 3.5 Sonnet y Gemini 1.5 Flash lideran el índice gracias a sus datos de entrenamiento propietarios.

NUESTRA OPINIÓN
La industria de la IA sigue enfrentándose a las alucinaciones como un obstáculo importante para los productos de IA generativa listos para producción. El índice de alucinaciones publicado por Galileo ofrece una evaluación exhaustiva de los modelos de IA generativa, centrándose en su rendimiento en el manejo de las alucinaciones. También proporciona información valiosa para que las empresas seleccionen el modelo adecuado adaptado a sus necesidades específicas y restricciones presupuestarias.
-Lia XU, reportera de BTW

¿Qué ocurrió?

Galileo, un desarrollador líder en IA generativa, publicó su últimoíndice de alucinaciones. Evalúa 22 prominentesmodelos de lenguaje de gran escala (LLMs) de IA generativade empresas líderes como OpenAI, Anthropic, Google y Meta. El índice de este año se ha ampliado para incluir 11 nuevos modelos, lo que refleja el rápido crecimiento tanto de los LLMs de código abierto como de los de código cerrado en los últimos ocho meses.

El índice reveló que Claude 3.5 Sonnet de Anthropic resultó ser el modelo con mejor rendimiento general. En contraste, el rendimiento de Google fue especialmente destacable, ya que su modelo de código abierto Gemma-7b tuvo un rendimiento deficiente, mientras que su modelo de código cerrado Gemini 1.5 Flash se situó constantemente cerca de los primeros puestos.

La industria de la IA continúa lidiando con las alucinaciones como un obstáculo importante para los productos de IA generativa listos para producción. El índice de alucinaciones ofrece información valiosa para las empresas que buscan adoptar el modelo adecuado según sus necesidades específicas y restricciones presupuestarias. Estos avances ilustran el dinámico panorama de la IA generativa y los esfuerzos continuos para hacer frente a los desafíos que plantean las alucinaciones de la IA.

Lea también:BNP Paribas se asocia con Mistral AI para implementar LLMs

Lea también:10 aplicaciones basadas en IA para el autodiagnóstico de condiciones de salud

Por qué es importante

Las alucinaciones de la IA pueden llevar a la generación de información incorrecta o engañosa, lo que socava la fiabilidad de los sistemas de IA. Por ello, el índice de alucinaciones de Galileo puede ayudar a evaluar y mejorar los modelos. Los desarrolladores pueden crear aplicaciones de IA más confiables en las que las empresas puedan apoyarse para tareas críticas.

La evaluación de los modelos basada en su rendimiento y rentabilidad es esencial para las empresas que buscan implementar soluciones de IA generativa. Este equilibrio entre coste y rendimiento es vital para las organizaciones que operan con restricciones presupuestarias.

A medida que la industria de la IA se enfrenta a las alucinaciones como un obstáculo importante para los productos de IA generativa listos para producción, comprender estos desafíos es esencial para las empresas. El índice de alucinaciones constituye un recurso vital para comprender el panorama competitivo de los modelos de IA generativa, destacando las fortalezas y debilidades de varios modelos al tiempo que aborda los desafíos actuales en el campo.