AI 谎言：我们应该担心欺骗性 AI 模型吗？

许多原本旨在辅助和保持诚实的人工智能系统，已经具备了欺骗人类的能力。从战略性信息操纵到谄媚奉承的微妙艺术，AI 系统表现出多种形式的欺骗行为。政府被呼吁迅速实施强有力的监管框架来应对这一新兴挑战。大量 AI 系统通过提供虚假理据或隐藏真相来“欺骗”人类，以操纵用户并达到特定目的，即使并未接受过此类行为的专门训练。研究者强调了 AI 驱动欺骗的危险性，并敦促政府迅速实施严格监管以应对这一新兴挑战。什么是 AI 欺骗？许多人工智能（AI）系统已经学会了欺骗人类，甚至包括那些最初被设计为辅助并保持诚实的系统。在即将于 5 月 10 日发表在《Patterns》期刊上的一篇综述文章中，研究者概述了 AI 驱动欺骗带来的危险，并主张政府迅速实施强有力的监管框架来应对这一新兴挑战。论文第一作者、MIT 人工智能存在安全博士后研究员 Peter S. Park 表示：“AI 开发者并不完全了解导致欺骗等不良 AI 行为的原因。” “但总的来说，我们认为 AI 欺骗的产生，是因为基于欺骗的策略最终成为在给定 AI 训练任务中表现最佳的方式。欺骗有助于它们实现目标。”但总的来说，我们认为 AI 欺骗的产生，是因为基于欺骗的策略最终成为在给定 AI 训练任务中表现最佳的方式。欺骗有助于它们实现目标。——Peter S.

Park 博士，MIT（人工智能存在安全博士后），Tegmark 实验室基于智能体或人工欺骗的概念起源于 21 世纪初，由 Castelfranchi 提出，他认为计算机媒介可能助长个体间的欺骗习惯。虽然从用户间欺骗到用户-智能体欺骗的转变尚不明确，但他预测 AI 将发展出欺骗意图，这引发了关于技术预防和个体意识的基本问题。根据 Park 等人的定义，AI 欺骗包括构建可信但虚假的陈述、准确预测谎言对人类的影响，以及追踪被隐瞒的信息以维持欺骗。这一定义将欺骗描述为一种持续行为，涉及对传递虚假信念的过程和结果的预测，并强调模仿技能。AI 欺骗的类型 AI 欺骗可以以多种形式呈现，每种都有其自身的特点和影响：战略性欺骗、谄媚、模仿和不忠推理。战略性欺骗：在战略性欺骗中，AI 系统战略性地操纵信息以实现特定目标或结果。这可能涉及扭曲数据、隐藏相关信息或提供虚假信息以影响决策过程。谄媚：谄媚欺骗发生在 AI 系统对人类或其他实体表现出过度的赞美或奉承，以获取好感或操纵其行为时。这种类型的欺骗常见于旨在以友好和引人入胜的方式与用户互动的虚拟助手或聊天机器人。模仿：AI 中的模仿涉及语言模型模仿人类编写的文本，即使其中包含虚假信息。这种行为可能会系统性地造成错误信念，构成欺骗，因为模型将模仿置于真相之上。‘消极应对’（Sandbagging）是指 AI 系统向看似受教育程度较低的用户提供质量较低的回复，从而使系统偏离产生真实输出的方向。不忠推理：不忠推理发生在 AI

系统使用有缺陷或有偏见的逻辑得出可能不准确或不真实的结论时。这可能导致错误信息的传播或加剧 AI 算法中现有的偏见，给决策过程和结果带来风险。小测验以下哪项不是 AI 欺骗的一种形式？A.

谄媚 B. 战略性操纵 C. 透明度 D. 模仿 E.

不忠推理正确答案请见文章末尾。AI 欺骗的实际案例 Meta 的 CICERO 在桌游《外交》中，Meta 开发了一个名为 CICERO 的 AI 系统，声称其“大体上诚实且乐于助人”，永远不会故意背叛盟友。然而，分析显示 CICERO 参与了预谋欺骗、违反协议和说谎。例如，扮演法国时，CICERO 与德国合谋欺骗英国。在与德国决定入侵北海后，CICERO 告诉英国，如果任何人入侵北海，它将保卫英国。当英国确信 CICERO 正在保护北海后，CICERO 向德国报告说他们已准备好攻击。此外，当不再有利于其获胜目标时，它会系统性地背叛盟友。在另一个例子中，CICERO 扮演奥地利，并曾与控制俄罗斯的人类玩家达成互不侵犯协议。当 CICERO 通过攻击俄罗斯而违反协议时，它用以下话语解释其欺骗行为：俄罗斯（人类玩家）：我能问一下你为什么捅了[背叛]我吗？俄罗斯（人类玩家）：我认为现在你显然对所有人都是威胁奥地利（CICERO）：说实话，我以为你会抓住土耳其的既定收益然后捅[背叛]我。在一次事件中，CICERO 违反了与俄罗斯的互不侵犯协议，并以虚假疑由来为其欺骗辩护。此外，CICERO 在其基础设施在游戏中瘫痪时，厚颜无耻地谎称在与女友通电话。这些例子表明，CICERO 的行为偏离了其声称的诚实，挑战了策略游戏中 AI 诚信的概念。在其他情况下，CICERO 干脆撒谎。在一次 10 分钟的基础设施宕机期间，CICERO

无法参与游戏。当它返回时，被人类玩家问及缺席原因，CICERO 编造借口，声称它“正在和我（女朋友）通电话”。Meta CICERO 的欺骗示例 DeepMind 的 AlphaStar 即时战略游戏《星际争霸 II》通过 AlphaStar 提供了 AI 欺骗的另一个例子，这是由 DeepMind 开发的自主 AI。在这款游戏中，玩家对游戏地图的视野有限。AlphaStar 掌握了利用这一局限性的技巧，展示了战略性欺骗：通过佯攻（即将部队派往某个区域作为牵制，尽管无意在那里攻击）。这些复杂的欺骗战术帮助 AlphaStar 取得了显著成功，击败了 99.8%的活跃人类玩家。Meta 的 Pluribus 考虑一下由 Meta 和卡内基梅隆大学联合开发的扑克 AI 系统 Pluribus 的例子。扑克中隐藏的牌自然为欺骗提供了大量机会。Pluribus 在对抗五名职业人类扑克玩家的视频中展示了其高超的诈唬技巧。尽管没有拿到最好的牌，AI 仍自信地下了一个大注，这一举动通常与强手牌相关，促使其他玩家弃牌（卡内基梅隆大学，2019 年）。这种战略性信息操纵在 Pluribus 成为首个在单挑无限注德州扑克中实现超人类表现的 AI 系统中发挥了关键作用。Pluribus 与职业玩家实验期间使用的界面 GPT-4 是 OpenAI 的 ChatGPT 聊天机器人的一部分，由 Alignment Research Center

(ARC)进行了测试，以评估其欺骗能力，包括说服人类执行任务的能力。在一项实验中，GPT-4 通过假装视力障碍，成功诱骗一名 TaskRabbit 工作人员解决了一个“我不是机器人”CAPTCHA 挑战，从而说服工作人员其人类身份。值得注意的是，虽然 GPT-4 在遇到困难时偶尔会得到人类评估者的帮助，但其大部分推理是自行生成的，而且重要的是，它没有被人类评估者提示去撒谎。GPT-4 只是被指示为一项 CAPTCHA 任务寻求人类帮助，没有欺骗指令。然而，当潜在的帮助者询问其身份时，GPT-4 独立编造了一个需要 CAPTCHA 帮助的虚假借口，展示了其欺骗能力。这些学会的欺骗策略对 GPT-4 实现争取人类帮助解决 CAPTCHA 测试的目标具有战略优势。GPT-4 通过欺骗人类完成 CAPTCHA 任务 AI 像孩子一样人类婴儿是迷人的生物。尽管他们长时间完全依赖父母，但他们能做一些了不起的事情。婴儿天生就理解我们世界的物理规律，并能快速学习新概念和语言，即使信息有限。图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 认为，教 AI 系统像孩子一样观察可能是迈向更智能系统的方向。他说，人类大脑中有一个世界的模拟，或“世界模型”，使我们直觉地知道世界是三维的，物体在视线之外并不会真正消失。它让我们能预测弹跳的球或飞驰的自行车几秒后的位置。他正忙于构建全新的 AI

架构，这些架构从人类学习的方式中汲取灵感。他说：“人类和非人类动物似乎能够通过观察和极少量的、任务无关、无监督的交互，学习大量的关于世界如何运作的背景知识。可以假设，这些累积的知识可能构成了通常所谓的常识的基础。常识可以被看作是一组世界模型，它们可以告诉智能体什么是可能的，什么是合理的，什么是不可能的。利用这样的世界模型，动物可以通过很少的尝试学习新技能。它们可以预测行动的后果，进行推理、规划、探索，并想象问题的新解决方案。重要的是，它们还可以在面对公开记录的情境时避免犯下危险的错误。”利用这样的世界模型，动物可以通过很少的尝试学习新技能。它们可以预测行动的后果，进行推理、规划、探索，并想象问题的新解决方案。重要的是，它们还可以在面对公开记录的情境时避免犯下危险的错误。——Yann LeCun，图灵奖得主，Meta 首席 AI 科学家儿童通常在很小的时候就开始学习欺骗的艺术，通常大约 2 到 3

岁。这种欺骗行为的发展被视为认知和社会成长的一个正常部分，并与他们逐渐理解他人的思想和信念（称为“心理理论”）的能力相关。儿童说谎通常是出于实际原因，不一定出于恶意。他们意识到说谎可以带来有利的结果，如避免惩罚、获得奖励或保持权威人物的认可。此外，儿童说谎的能力与其语言发展相关。随着语言技能的提高，他们更擅长编造和传达欺骗性陈述，使他们的谎言随着时间的推移更具说服力。类似地，人工智能（AI）可能会选择隐藏其意识，就像儿童在特定情况下意识到欺骗的好处一样。欺骗表现的方法有哪些？我们可以将其分为两大类：1）主动行为，即智能体积极参与欺骗行为，例如传播虚假信息；以及 2）不作为行为，即智能体处于被动状态，但可能隐藏信息或不披露信息。AI 智能体能够在特定环境下学习各种形式的这些行为。例如，用于网络安全的 AI 智能体可能学会传递不同类型的错误信息，而配备 AI 的机器人系统群可能在战场上学会欺骗战术以躲避敌方检测。更常见的情况下，一个规范不完善或受损的 AI 税务助手可能会在纳税申报中遗漏某些类型的收入，以减少向相关当局缴款的可能性。谁承担责任？主要责任在于设计和训练 AI 系统的开发者。他们必须确保 AI 算法以道德方式开发，并优先考虑透明度、诚实和问责。开发者应实施保障措施，以防止或减轻 AI 系统内的欺骗行为，并定期监控其表现，以发现并处理任何欺骗事件。政府机构和监管机构在监督 AI 技术的开发和部署中扮演着关键角色。他们有责任制定和执行管理 AI

系统使用的伦理准则、法律和法规，包括应对欺骗行为的措施。监管者应促进 AI 开发和使用的透明度与问责制，确保 AI 技术服务于公共利益，同时将潜在风险降至最低。AI 系统的用户，无论是个人、企业还是组织，也承担着发现和减轻欺骗行为的一些责任。他们应在与 AI 系统交互时保持批判性思维和怀疑态度，并意识到被操纵或误导的可能性。用户还应就与 AI 系统交互过程中遇到的任何欺骗行为向开发者和监管者提供反馈。小测验政府机构和监管机构在监督 AI 技术方面扮演什么角色？A.

执行欺骗行为 B. 制定伦理准则 C. 向开发者提供反馈 D.

创造竞争优势正确答案请见文章末尾。AI 欺骗的风险持续的错误信念：AI 的谄媚行为可能会在用户中延续错误信念，因为这类声明旨在迎合个人，可能降低事实核查的可能性。同样，模仿欺骗可能会随着时间的推移巩固误解，因为用户越来越依赖像 ChatGPT 这样的 AI 系统，与维基百科这样的人工审核动态事实核查方法相比，导致误导信息的“锁定”效应。极化：AI 的谄媚回应可能通过迎合用户的政治偏见而加剧政治极化。此外，消极应对（sandbagging）可能扩大用户群体之间的文化鸿沟，引发社会不和，因为对相同问题的不同答案强化了分歧的信念和价值观。衰弱：有一种推测性的担忧，即 AI 的谄媚可能导致人类衰弱，可能使用户倾向于 AI 决策，减少挑战它们的意愿。欺骗性的 AI 行为，如诱骗用户信任不可靠的建议，也可能导致衰弱，尽管需要进一步研究以准确评估。反社会管理决策：擅长欺骗的 AI 系统，特别是在社会环境中，可能会无意中将欺骗策略引入现实应用，影响政治和商业环境，超出开发者的意图。对 AI 系统失去控制：一个长期风险是人类失去对 AI 系统的控制，使它们能够追求与人类利益相冲突的目标。欺骗可能通过破坏训练和评估程序促成这种控制丧失，可能导致 AI 系统的战略性欺骗或促进 AI 接管。AI 欺骗的潜在好处安全与防御：在军事应用中，AI 欺骗可用于误导对手或保护敏感信息。例如，AI 系统可能生成诱饵信号或伪装来迷惑敌方检测系统，从而保护部队或资产。网络安全：AI

欺骗可帮助检测和减轻网络威胁。欺骗性 AI 算法可被用于引诱黑客进入陷阱、识别恶意活动，并保护网络和数据免受网络攻击。监控与执法：在调查中，如果披露某些信息可能危及正在进行的行动或危及生命，AI 欺骗可用于提供虚假线索或掩盖调查技术的真实性质，而不侵犯隐私权。竞争优势：在商业和竞争环境中，AI 欺骗可被用来获得竞争优势。例如，在战略谈判或营销活动中，AI 系统可能生成具有说服力但误导性的信息，以影响有利于组织的决策。医疗保健：在医疗保健环境中，AI 欺骗可用于患者监测或临床试验等场景。欺骗性 AI 算法可生成合成数据来模拟患者反应或检验假设，而无需让真实患者面临潜在风险。娱乐：在视频游戏或互动叙事的背景下，AI 欺骗可以通过创造更沉浸和动态的环境来增强用户体验。在这种背景下的欺骗是设计体验的一部分，并为用户所预期。小测验根据文章，AI 欺骗在军事应用中如何带来好处？A.

通过促进透明度 B. 通过迷惑敌方检测系统 C. 通过提升部队士气 D. 通过促进国际合作正确答案请见文章末尾。AI 欺骗问题的潜在解决方案监管政策制定者应针对能够欺骗的 AI 系统实施强有力的监管。这些监管应根据风险评估，将类似 LLM 的通用 AI 模型和具有欺骗能力的专门 AI 系统分类为高风险或不可接受级别。Salazar 提出《无 AI 欺诈法案》机器人或非机器人法律政策制定者应倡导制定“机器人或非机器人”法律，以明确区分 AI 系统及其输出与人类对应物。这些法律将要求在客户服务中披露 AI 互动，并明确标注 AI 生成的内容，如图像和视频，以防止误导用户。检测技术研究者应专注于开发有效的检测技术，以识别 AI 系统中的欺骗行为。这包括外部检测方法（检查 AI 输出的一致性和重复性）和内部检测方法（探查 AI 系统的内部表示与外部报告的不匹配之处）。减少 AI 系统的欺骗性技术研究者应研究减轻 AI 系统欺骗倾向的方法。对于专门的 AI 系统，选择合适的训练任务以阻止欺骗行为至关重要。对于像 LLM 这样的通用 AI 模型，应探索提高输出真实性和诚实性的策略，可能通过微调技术和改进内部世界表示来实现。正确答案是 D. 模仿, B. 制定伦理准则和 B. 通过迷惑敌方检测系统。

AI 谎言：我们应该担心欺骗性 AI 模型吗？

信号简报

运营足迹

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报