• 该集群支持 Anthropic 及其 Claude 模型进行训练和推理,并采用 AWS 设计的 Trainium2 芯片构建。
  • 目前约有 500,000 颗芯片处于活跃状态,AWS 表示 Rainier 比以往任何内部平台都大 70%,并将在 2025 年底前突破一百万颗芯片。

事件经过:AWS 启动 Project Rainier AI 超级集群

AWS 已正式启动 Project Rainier,这是一个重要的 AI 基础设施部署,目前配备近 500,000 颗其专有的 Trainium2 芯片。该集群于 2024 年底在 AWS re:Invent 大会上首次亮相,分布在多个数据中心站点,采用特殊架构——每个“UltraServer”配备 64 颗 Trainium2 芯片,并通过高速链路互连。

作为该部署的一部分,AWS 表示其合作伙伴 Anthropic 将在 Rainier 集群上运行其 Claude AI 模型,并计划在 2025 年底前将使用规模扩大到超过一百万颗 Trainium2 芯片。部分已投入运营的站点包括印第安纳州一个拥有多栋建筑、潜在功耗达 2.2 GW 的大型园区。

另请阅读:美国收紧对华为和中芯国际的芯片出口限制
另请阅读:阿里巴巴同意支付 4.335 亿美元和解安全欺诈集体诉讼

重要性分析

Project Rainier 的推出标志着从通用 GPU 平台向超大规模定制 AI 芯片转变的重要一步。通过构建自己的训练和推理硬件,AWS 能够更紧密地控制从芯片到云端的整个技术栈,从而优化成本、性能和能效。

对于 Anthropic 及类似的 AI 公司而言,获得如此规模的定制算力,为更快地训练更大、更强大的模型打开了大门。AWS 声称该集群已比此前任何内部产品大 70%,这一事实凸显了算力军备竞赛发展的迅猛速度。

从竞争的角度来看,AWS 的大规模部署给其他云服务商和芯片制造商(包括依赖 GPU 的厂商)带来了压力,迫使他们匹配性能和基础设施规模。AWS 在不到一年的时间内从宣布到推出,暗示着 AI 基础设施交付的新基准已经诞生。

总之,Project Rainier 不仅代表着更多的算力——它还标志着云 AI 基础设施的新时代,在这个时代中,芯片、服务器和数据中心的垂直整合成为战略差异化因素。