• 批量同步训练在大型集群中造成 GPU 需求急剧下降
• 辅助工作负载稳定了电力但增加了能源和基础设施成本


事实

AI 数据中心消耗更多电力,部分原因是批量同步训练在集群中造成 GPU 需求急剧下降。运营商通过辅助工作负载来平滑这些下降:竞争 GPU 性能的生产性任务,或运行无意义计算以维持稳定电力配置的虚拟工作负载。Oracle 使用毫秒级的 GPU 心跳来触发这种活动。这种做法增加了能源消耗,提高了冷却需求,并可能延迟电网审批。

评估

AI 数据中心的能源压力不仅关乎发电不足;还涉及设施内部低效的电力行为。辅助工作负载平抑了需求,但也带来了隐藏成本:生产性任务拖慢了主要训练,虚拟任务浪费电力,而持续类似于峰值的运行加速了设备磨损。该行业正在使用额外的计算来弥补硬件和编排层面缺乏工作负载感知电力管理的问题。

应关注

关注 GPU 供应商和运营商是否开发出更少浪费的辅助工作负载替代方案,包括硬件级平滑、预测性调度或与电力波动相关的互连规则。