5月13日｜Google 发布第八代 TPU 训推解耦提升 AI 算力效率

谷歌在 CloudNext'26 大会正式发布第八代张量处理单元（TPU），首次将 AI 训练与推理任务拆分为两款独立芯片 ——TPU8t（训练专用）与 TPU8i（推理专用），实现训推解耦架构升级，大幅提升 AI 算力效率。谷歌 AI 与基础设施高级副总裁兼 CTOAminVahdat 在官方博客表示，此举旨在匹配 AI 智能体兴起下日益分化的计算负载需求。

5月13日，第八代 TPU 由谷歌与博通联合设计，分为 TPU8t 和 TPU8i 两款芯片，均运行于谷歌自研 AxionARMCPU 平台，采用第四代液冷技术，每瓦性能较第七代 Ironwood 提升至两倍，预计 2026 年下半年正式商用。AlphabetCEO 桑达尔・皮查伊强调，新架构以低成本提供大规模吞吐量与低延迟，支持数百万 AI 智能体并发运行。

TPU8t 作为大规模训练专用芯片，单个 Superpod 超级集群可集成 9600 颗芯片，配备 2PB 共享高带宽内存，FP4 精度下总算力达 121ExaFlops，较第七代 Ironwood 性能提升近 3 倍，性价比提升 2.8 倍，可将前沿模型开发周期从数月缩短至数周。该芯片采用双计算芯粒加单 I/O 芯粒架构，搭载 8 组 12 层堆叠 HBM3e 内存，全新设计 Virgo 高速互联网络，芯片间双向带宽翻倍，数据中心级对外带宽提升 4 倍。依托 JAX 与 Pathways 框架，TPU8t 可实现单集群超 100 万颗芯片的分布式训练扩展，针对混合专家模型（MoE）的稀疏计算特性，搭载 SparseCore 加速单元，优化 3D 环形拓扑网络，避免不规则内存访问导致的性能损耗。

TPU8i 聚焦低延迟推理场景，单芯片集成 384MBSRAM，容量是上代 Ironwood 的 3 倍，可完全容纳更大 KV 缓存，减少长上下文解码空闲时间，推理性能较上代提升 80%，尤其适配大规模 MoE 模型的低延迟需求。该芯片采用 Boardfly 网络拓扑，配备集合加速引擎（CAE），优化高并发推理与长上下文处理能力，专为 AI 智能体交互、多轮推理及世界模型模拟场景设计，可支持 DeepMindGenie3 等模型为上百万智能体提供模拟训练。

训推解耦战略调整源于 AI 计算负载分化：训练任务追求极致吞吐量与规模扩展，需高计算密度与内存带宽处理万亿级参数；推理任务则对延迟和并发敏感，数百万 AI 智能体同时运行时响应速度至关重要。谷歌官方数据显示，TPU8t 在同等价格下性能较 Ironwood 提升 2.8 倍，TPU8i 推理性价比提升 80%，第四代液冷技术与系统级功耗优化，使数据中心单位电力计算能力较五年前显著提升。

业内分析认为，谷歌第八代 TPU 发布标志其 AI 硬件战略重大转向，从 "一芯多用" 到 "各司其职" 的训推分离架构，为 AI 算力领域提供新范式。同时，谷歌宣布第七代 TPUIronwood 正式向云客户开放，并预告 2026 年下半年将成为首家提供 NvidiaVeraRubinNVL72 超级计算机的云服务商，构建 TPU 与英伟达芯片协同的多元算力生态。

此次第八代 TPU 的发布，通过训推解耦的双芯片架构，精准匹配 AI 训练与推理的差异化需求，在算力、能效、性价比三方面实现突破，为大模型训练、AI 智能体部署及世界模型模拟等场景提供高效算力支撑，推动 AI 技术从模型研发到规模化应用的全链路效率升级。