谷歌在 CloudNext'26 大会正式发布第八代张量处理单元(TPU),首次将 AI 训练与推理任务拆分为两款独立芯片 ——TPU8t(训练专用)与 TPU8i(推理专用),实现训推解耦架构升级,大幅提升 AI 算力效率。谷歌 AI 与基础设施高级副总裁兼 CTOAminVahdat 在官方博客表示,此举旨在匹配 AI 智能体兴起下日益分化的计算负载需求。
5月13日,第八代 TPU 由谷歌与博通联合设计,分为 TPU8t 和 TPU8i 两款芯片,均运行于谷歌自研 AxionARMCPU 平台,采用第四代液冷技术,每瓦性能较第七代 Ironwood 提升至两倍,预计 2026 年下半年正式商用。AlphabetCEO 桑达尔・皮查伊强调,新架构以低成本提供大规模吞吐量与低延迟,支持数百万 AI 智能体并发运行。
TPU8t 作为大规模训练专用芯片,单个 Superpod 超级集群可集成 9600 颗芯片,配备 2PB 共享高带宽内存,FP4 精度下总算力达 121ExaFlops,较第七代 Ironwood 性能提升近 3 倍,性价比提升 2.8 倍,可将前沿模型开发周期从数月缩短至数周。该芯片采用双计算芯粒加单 I/O 芯粒架构,搭载 8 组 12 层堆叠 HBM3e 内存,全新设计 Virgo 高速互联网络,芯片间双向带宽翻倍,数据中心级对外带宽提升 4 倍。依托 JAX 与 Pathways 框架,TPU8t 可实现单集群超 100 万颗芯片的分布式训练扩展,针对混合专家模型(MoE)的稀疏计算特性,搭载 SparseCore 加速单元,优化 3D 环形拓扑网络,避免不规则内存访问导致的性能损耗。
TPU8i 聚焦低延迟推理场景,单芯片集成 384MBSRAM,容量是上代 Ironwood 的 3 倍,可完全容纳更大 KV 缓存,减少长上下文解码空闲时间,推理性能较上代提升 80%,尤其适配大规模 MoE 模型的低延迟需求。该芯片采用 Boardfly 网络拓扑,配备集合加速引擎(CAE),优化高并发推理与长上下文处理能力,专为 AI 智能体交互、多轮推理及世界模型模拟场景设计,可支持 DeepMindGenie3 等模型为上百万智能体提供模拟训练。
训推解耦战略调整源于 AI 计算负载分化:训练任务追求极致吞吐量与规模扩展,需高计算密度与内存带宽处理万亿级参数;推理任务则对延迟和并发敏感,数百万 AI 智能体同时运行时响应速度至关重要。谷歌官方数据显示,TPU8t 在同等价格下性能较 Ironwood 提升 2.8 倍,TPU8i 推理性价比提升 80%,第四代液冷技术与系统级功耗优化,使数据中心单位电力计算能力较五年前显著提升。
业内分析认为,谷歌第八代 TPU 发布标志其 AI 硬件战略重大转向,从 "一芯多用" 到 "各司其职" 的训推分离架构,为 AI 算力领域提供新范式。同时,谷歌宣布第七代 TPUIronwood 正式向云客户开放,并预告 2026 年下半年将成为首家提供 NvidiaVeraRubinNVL72 超级计算机的云服务商,构建 TPU 与英伟达芯片协同的多元算力生态。
此次第八代 TPU 的发布,通过训推解耦的双芯片架构,精准匹配 AI 训练与推理的差异化需求,在算力、能效、性价比三方面实现突破,为大模型训练、AI 智能体部署及世界模型模拟等场景提供高效算力支撑,推动 AI 技术从模型研发到规模化应用的全链路效率升级。
