谷歌近日正式推出第8代TPU,這款專為智能體(Agent)時代設計的芯片在訓練與推理性能上實現重大突破,引發科技界與資本市場的廣泛關注。其采用“訓推分離”策略,推出TPU 8t與TPU 8i兩款物理結構完全不同的芯片,分別針對模型訓練與推理場景優化,標志著谷歌在AI硬件領域邁出關鍵一步。
針對推理場景的TPU 8i則以“低延遲”為核心目標。谷歌重構底層推理棧,將288GB高帶寬內存與384MB片上SRAM集成至芯片,內存容量為上一代的3倍,減少數據搬運等待時間。系統效率層面,引入自研Axion CPU架構,服務器CPU主機數量翻倍,并通過NUMA隔離優化協同效率。針對MoE混合專家模型,互連帶寬提升至19.2 Tb/s,Boardfly架構將網絡路徑長度縮短一半以上。新增的片上集體加速引擎(CAE)將全局操作移至芯片內部,延遲最高降至原來的1/5,每美元性能提升約80%,同等成本下服務能力接近翻倍。
谷歌選擇“訓推分離”的背后,是對智能體時代需求的精準洞察。訓練場景強調“快”,推理場景則需“穩”,單一芯片難以同時滿足兩者。第8代TPU的成功,離不開谷歌對全棧技術的深度掌控。從這一代開始,TPU與谷歌自研Axion CPU形成深度協同,CPU-TPU配合方式可根據AI任務需求定制,最大化挖掘性能潛力。能源優化方面,谷歌將范圍擴展至整個鏈路:從芯片到網絡,再到數據中心,均圍繞“省電”重新設計。例如,將網絡連接集成至計算芯片,減少數據搬運;通過統一電源管理動態分配電力;數據中心與TPU協同設計,結合第四代液冷技術,使算力在更高能效區間穩定運行。這些優化使8t與8i的每瓦性能較上一代提升近2倍,數據中心單位電力算力五年內提升6倍。
開發者生態方面,谷歌將全棧能力開放給用戶。8t與8i原生支持PyTorch、JAX、vLLM等主流框架,提供裸機訪問權限,開發者可直接調用硬件真實性能。配合MaxText、Tunix等開源工具,模型訓練到部署的路徑進一步簡化。谷歌此次明確提出“面向Agent時代的基礎設施”定位,從硬件到生態的布局已初見雛形。
第8代TPU的發布,也引發對AI芯片競爭格局的討論。此前,英偉達CEO黃仁勛在播客中回應“TPU威脅論”時表示,TPU僅在特定賽道取得突破,而英偉達通過CUDA生態覆蓋AI、數據處理、科學計算等全場景,市場機會更廣。他強調,英偉達的系統支持所有類型應用,客戶可在任何場景建立需求。然而,隨著AI算力需求持續膨脹,TPU的重要性正被重新評估——至少特斯拉CEO馬斯克已公開表達對TPU潛力的認可。這場硬件競賽的走向,或許將取決于技術突破與生態建設的雙重博弈。












