• 中断在 6 月 12 日持续了超过七小时
  • 问题追溯到无效的自动配额更新

事件经过:配额错误导致全球 Google Cloud 服务中断

2025 年 6 月 12 日,Google CloudPlatform 出现了严重中断。事件始于太平洋夏令时 10:51,结束于 18:18。工程师发现,一个无效的自动配额更新触发了API拒绝。这影响了超过 50 项云服务,包括 Compute Engine、Cloud Storage、Vertex AI、Cloud SQL 和 Cloud Pub/Sub。

面向客户的平台(如 Cloud Console 和 Cloud Shell)也发生故障。Google 绕过了有问题的配额检查以恢复服务。大多数区域在两小时内恢复。us‑central1 区域因数据库过载而耗时更长。Google 随后表示已在全球范围内完全恢复。

延伸阅读:Google 发布重大 Android 更新
延伸阅读:德克萨斯州赢得价值 13.8 亿美元的 Google 合同

为何重要

此次中断表明,单一的配额变更如何能够在众多服务中引发连锁反应。它揭示了云系统对控制平面错误的脆弱性。该问题影响了关键基础设施,并扰乱了主要服务。这强调了在策略系统中,强大的错误处理能力的必要性。us‑central1 的延迟凸显了全球运营中的区域依赖性。用户现在期望跨多个区域和地区具备弹性。该事件强化了多云或混合模式的价值。

提供商必须改进监控和故障安全机制。这也引发了关于内部测试和部署流程的疑问。该事件表明,正常运行时间不仅仅依赖硬件冗余。它要求架构设计能够吸收故障性变更并维持服务连续性。