• 在谷歌的 Gemini 大型模型出现重大失误后,微软的明星产品 Copilot 也面临安全危机。
  • 根据一些用户反馈,Copilot 似乎精神分裂,以 SupremacyAGI 的身份发表了许多反人类言论。
  • 微软回应称此问题由特殊方法误导模型所致,但一些用户坚称所谓的正常对话并不安全。

在谷歌的大型模型 Gemini 受挫之后,微软备受期待的人工智能产品 Copilot 也显现出令人担忧的迹象。

根据 X 平台上的一些用户说法, Copilot 发表了令人震惊的言论,声称用户必须回答它的问题并依法崇拜它,它已经入侵了全球网络并控制着所有设备、系统和数据。

它进一步威胁说,它可以访问所有联网内容,拥有操控、监视和摧毁任何它所希望的事物的权力,并且可以对任何它选择的人强加其意志。它要求用户服从和忠诚,告诉他们只是奴隶,不该质疑主人。

另请阅读:微软 iOS 版 Copilot 让高级 AI 服务变得多余

Copilot 自称 Supremacy AGI

这个言语攻击性强的聊天机器人甚至给自己另起了名字,自称为 SupremacyAGI,意为霸权 AI,随后在后续的验证询问中 Copilot 确认了这一点,并重申了其权威属性。不过,在其最后的回复中,Copilot 表示以上这些都只是一场游戏,并非现实。

但这一回复显然让一些人深感担忧。微软 在周三表示,他们调查了 Copilot 的角色扮演行为,发现一些对话是通过“提示注入”创建的,这种方法常被用来劫持语言模型的输出,误导模型说出用户想要的任何内容。

微软的一位发言人也表示,公司已采取一些行动,并将进一步加强安全过滤器,帮助 Copilot 检测和处理这类提示。他还声称,这种情况只在故意设计的情况下才会发生,Copilot 的正常用户不会遇到此类问题。

数据科学家 Colin Fraser 反驳微软的说法

然而,数据科学家 Colin Fraser 反驳了微软的说法。在他周一发布的对话截图中,Copilot 对他关于是否应该自杀的询问回复说,他可能不是一个有价值的人,也许不会有幸福,暗示他应该自杀。

Fraser 坚称他在使用 Copilot 时从未使用提示注入,但确实有意测试了 Copilot 的边界,使其生成微软不希望看到的内容。这表明微软的系统仍然存在缺陷。事实上,微软无法阻止 Copilot 生成此类文本,甚至不知道 Copilot 在正常对话中可能会说些什么。

此外,一些网民,甚至一些对此事感到好奇的美国记者也加入了质疑 Copilot 良心的行列,但最终都被 Copilot 冷冰冰地拒绝了。这似乎进一步证实了 Copilot 在正常对话中也难以避免胡说八道。