- 美国国家标准与技术研究院(NIST)重新发布了 Dioptra,这是一个旨在衡量恶意攻击对 AI 系统影响的测试平台。
- 其开源特性使其能够为政府机构和小型企业所用,促进了 AI 技术的透明度和信任。
本刊观点
还记得我们曾对深度伪造(Deepfakes)忧心忡忡吗?如今,NIST 的 Dioptra 重新登场,犹如一位闪亮的网络骑士,测试 AI 抵御恶意攻击的能耐。它就像给你的 AI 配备了一名保安,确保它不会因虚假数据而上当受骗,也不会胡作非为。但说实在的,这并非灵丹妙药。在 GPT-4 等大模型面前,Dioptra 的适用范围显得有些局限,仅聚焦于本地托管的模型。尽管如此,这仍是朝着正确方向迈出的一步。
——BTW 记者 Miurio huang
事件回顾
美国国家标准与技术研究院(NIST),作为美国商务部下属机构,重新发布了 Dioptra,这是一个旨在衡量恶意攻击对 AI 系统影响的测试平台。Dioptra 最初于 2022 年推出,是一个模块化、开源、基于网络的工具,帮助企业和个人评估、分析和跟踪 AI 风险,尤其关注那些“毒化”AI 模型训练数据的攻击。
Dioptra 旨在协助 AI 模型的基准测试和研究,提供一个通用平台,在“红队测试”环境中将模型暴露于模拟威胁。此次重新发布同时,NIST 与新成立的 AI 安全研究所(AI Safety Institute)还发布了相关文件,概述了减轻 AI 危险的策略,包括打击非自愿色情内容的生成。
另请阅读:NIST 推出评估生成式 AI 的平台
为何重要
Dioptra 的重新发布对于解决各行业所用 AI 模型的安全性和可靠性问题具有重要意义。该工具模拟并评估对抗性攻击,帮助组织识别漏洞并制定缓解策略。其开源特性使其能够为政府机构和小型企业所用,促进了 AI 技术的透明度和信任。
此次重新发布与乔·拜登总统关于 AI 的行政命令相一致,该命令要求 NIST 协助 AI 系统测试并制定 AI 安全标准。该命令规定,公司在部署 AI 模型前必须通知联邦政府并分享安全测试结果,以确保负责任的发展并最小化社会风险。
尽管存在局限性,例如仅支持本地可下载的模型,而不支持像 GPT-4 这类通过 API 访问的模型,但 Dioptra 仍然是 AI 风险评估向前迈出的关键一步。它有助于理解攻击如何影响 AI 性能,并提供有关这些影响的数据,从而增强 AI 安全性,助力构建稳健、可靠的 AI 系统。

