- Anthropic anuncia un programa destinado a financiar el desarrollo de nuevos benchmarks para evaluar el rendimiento y el impacto de los modelos de IA.
- Anthropic cree que desarrollar evaluaciones de alta calidad relacionadas con la seguridad sigue siendo un desafío y que la demanda supera la oferta.
NUESTRA OPINIÓN
En vista de los intereses comerciales de la compañía, la imparcialidad de los proyectos financiados por Anthropic podría verse afectada. Además, para algunos de los riesgos de IA "catastróficos" y "engañosos" mencionados por Anthropic, algunos expertos creen que esto podría desviar la atención de los problemas regulatorios actuales más urgentes.
–Zora Lin, periodista de BTW
¿Qué ha pasado?
Anthropic anuncia el lanzamiento de una nueva iniciativa el lunes, con el objetivo de financiar nuevos benchmarks para evaluar el rendimiento y el impacto de los modelos de IA, como los modelos generativos como Claude.
Según la publicación oficial del blog de Anthropic, la compañía proporcionará apoyo financiero a organizaciones de terceros para desarrollar herramientas que "midan eficazmente las capacidades avanzadas de los modelos de inteligencia artificial". Las organizaciones interesadas pueden enviar solicitudes, y las evaluaciones se llevarán a cabo de forma continua.
La iniciativa de Anthropic surge de las crecientes críticas a los benchmarks existentes para modelos de IA, como la evaluación MLPerf que realiza dos veces al año la entidad sin fines de lucro MLCommons. Se cree ampliamente que los benchmarks más populares utilizados para calificar los modelos de IA no evalúan adecuadamente cómo las personas comunes usan realmente los sistemas de IA a diario.
Anthropic espera alentar a la comunidad de investigación de IA a idear benchmarks más desafiantes que se centren en su impacto social y seguridad, y pide una revisión de los métodos existentes.
Lea también: ¿Quién es Dario Amodei? CEO de Anthropic, guardián de la seguridad de la IA
Lea también: Schneider y NVIDIA construirán un diseño de centro de datos de referencia para IA
Por qué es importante
La inversión de Anthropic tiene como objetivo elevar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas para todo el ecosistema.
La innovación en benchmarks enfatiza no solo el rendimiento técnico del modelo, sino también su impacto social y seguridad. A través de los nuevos benchmarks, los investigadores pueden evaluar mejor los problemas sociales y de seguridad de la IA, proporcionar un fuerte apoyo para construir sistemas de IA más fiables y ayudar a aumentar la confianza pública en la tecnología de IA.
Al proporcionar apoyo financiero, Anthropic alienta a las organizaciones de terceros a participar en el desarrollo de nuevas herramientas de evaluación comparativa, lo que atraerá a más innovadores y emprendedores a unirse al campo de la inteligencia artificial y promover conjuntamente su prosperidad.

