- Anthropic 宣布一项计划,旨在资助开发用于评估人工智能模型性能和影响的新基准。
- Anthropic 认为,开发高质量、与安全相关的评估仍然具有挑战性,并且需求超过供给。
我们的看法
考虑到公司的商业利益,Anthropic 资助项目的公正性可能会受到影响。此外,对于 Anthropic 提到的某些“灾难性”和“欺骗性”人工智能风险,一些专家认为这可能会分散人们对当前更紧迫的人工智能监管问题的注意力。
——Zora Lin,BTW 记者
发生了什么
Anthropic 于周一宣布启动一项新计划,旨在资助用于评估人工智能模型性能和影响的新基准,例如像 Claude 这样的生成模型。
根据 Anthropic 的官方博文,该公司将为第三方组织提供资金支持,以开发能够“有效衡量人工智能模型先进能力”的工具。有兴趣的组织可以提交申请,评估将滚动进行。
Anthropic 的这项计划源于对现有 AI 模型基准越来越多的批评,例如由非营利实体 MLCommons 每年进行两次的 MLPerf 评估。人们普遍认为,用于评估人工智能模型的最流行基准在评估普通人日常实际使用人工智能系统方面表现不佳。
Anthropic 希望鼓励人工智能研究界提出更具挑战性的基准,这些基准要关注其社会影响和安全性,并呼吁对现有方法进行彻底改革。
另请阅读: Dario Amodei 是谁?Anthropic 首席执行官,AI 安全守护者
另请阅读: 施耐德、英伟达合作构建 AI “基准”数据中心设计
为何重要
Anthropic 的投资旨在提升整个 AI 安全领域,为整个生态系统提供有价值的工具。
基准创新不仅强调模型的技术性能,还强调其社会影响和安全性。通过新的基准,研究人员可以更好地评估人工智能的社会和安全问题,为构建更可靠的人工智能系统提供有力支持,并有助于提高公众对人工智能技术的信任。
通过提供资金支持,Anthropic 鼓励第三方组织参与新基准工具的开发,这将吸引更多创新者和企业家加入人工智能领域,共同推动其繁荣。

