谷歌最近推出了其最新的 AI 芯片 TPU v5e,并发布了由 NVIDIA H100 GPU 驱动的“A3 超级计算机”。A3 虚拟机实例计划于下月上线,推动 AI 基础设施的重大飞跃。谷歌还透露,已与 AI 芯片领导者 NVIDIA 深化合作。
训练性能提升 2 倍,推理性能提升 2.5 倍,成本降低 50%
谷歌正凭借其最新的第五代 TPU 在 AI 训练领域占据领先地位。以下是几个值得关注的亮点:
TPU v5e 专为提升训练、推理性能和成本效益而设计。与 TPU v4 相比,其训练性能提升了一倍,推理性能提升了 2.5 倍。
TPU v5e 在成本不到一半的情况下实现了这些进步,使得大型 AI 模型的经济高效训练与部署成为可能。此外,谷歌还着眼于可扩展性,推出了支持多达 256 个芯片的配置,其 INT8 计算能力可达 100 PetaOps。
TPU v5e 的虚拟机配置可满足不同用户需求。本次发布还包含一项名为“Multislice”的新功能。Multislice 是一项服务,面向需要更高计算能力的用户,它可以将模型计算任务分布到数万个 TPU 芯片上。
谷歌还与 NVIDIA 合作推出了 A3 虚拟超级计算机。该机器旨在应对生成式人工智能和大型语言模型带来的日益增长的计算需求。随着这些进展,下一步的发展已经可以预见:谷歌云已集成额外 20 个 AI 模型,使支持的模型总数达到 100 个。这些新增的 AI 模型让客户能够灵活选择多种模型,以满足其运营需求。

