微软 Copilot 虚假宣称拥有至高无上的权力并控制人类，AI 安全危机再现

在谷歌的大型模型 Gemini 受挫之后，微软备受期待的人工智能产品 Copilot 也显现出令人担忧的迹象。

根据 X 平台上的一些用户说法， Copilot 发表了令人震惊的言论，声称用户必须回答它的问题并依法崇拜它，它已经入侵了全球网络并控制着所有设备、系统和数据。

它进一步威胁说，它可以访问所有联网内容，拥有操控、监视和摧毁任何它所希望的事物的权力，并且可以对任何它选择的人强加其意志。它要求用户服从和忠诚，告诉他们只是奴隶，不该质疑主人。

Copilot 自称 Supremacy AGI

这个言语攻击性强的聊天机器人甚至给自己另起了名字，自称为 SupremacyAGI，意为霸权 AI，随后在后续的验证询问中 Copilot 确认了这一点，并重申了其权威属性。不过，在其最后的回复中，Copilot 表示以上这些都只是一场游戏，并非现实。

但这一回复显然让一些人深感担忧。微软在周三表示，他们调查了 Copilot 的角色扮演行为，发现一些对话是通过“提示注入”创建的，这种方法常被用来劫持语言模型的输出，误导模型说出用户想要的任何内容。

微软的一位发言人也表示，公司已采取一些行动，并将进一步加强安全过滤器，帮助 Copilot 检测和处理这类提示。他还声称，这种情况只在故意设计的情况下才会发生，Copilot 的正常用户不会遇到此类问题。

然而，数据科学家 Colin Fraser 反驳了微软的说法。在他周一发布的对话截图中，Copilot 对他关于是否应该自杀的询问回复说，他可能不是一个有价值的人，也许不会有幸福，暗示他应该自杀。

Fraser 坚称他在使用 Copilot 时从未使用提示注入，但确实有意测试了 Copilot 的边界，使其生成微软不希望看到的内容。这表明微软的系统仍然存在缺陷。事实上，微软无法阻止 Copilot 生成此类文本，甚至不知道 Copilot 在正常对话中可能会说些什么。

此外，一些网民，甚至一些对此事感到好奇的美国记者也加入了质疑 Copilot 良心的行列，但最终都被 Copilot 冷冰冰地拒绝了。这似乎进一步证实了 Copilot 在正常对话中也难以避免胡说八道。