時事快聞

谷歌第8代TPU震撼登場：訓練周期大幅縮短，推理成本減半性能躍升

時間：2026-04-23 18:57 來源：快訊作者：周琳

谷歌近日正式推出第8代TPU，這款專為智能體（Agent）時代設計的芯片在訓練與推理性能上實現重大突破，引發科技界與資本市場的廣泛關注。其采用“訓推分離”策略，推出TPU 8t與TPU 8i兩款物理結構完全不同的芯片，分別針對模型訓練與推理場景優化，標志著谷歌在AI硬件領域邁出關鍵一步。

針對推理場景的TPU 8i則以“低延遲”為核心目標。谷歌重構底層推理棧，將288GB高帶寬內存與384MB片上SRAM集成至芯片，內存容量為上一代的3倍，減少數據搬運等待時間。系統效率層面，引入自研Axion CPU架構，服務器CPU主機數量翻倍，并通過NUMA隔離優化協同效率。針對MoE混合專家模型，互連帶寬提升至19.2 Tb/s，Boardfly架構將網絡路徑長度縮短一半以上。新增的片上集體加速引擎（CAE）將全局操作移至芯片內部，延遲最高降至原來的1/5，每美元性能提升約80%，同等成本下服務能力接近翻倍。

谷歌選擇“訓推分離”的背后，是對智能體時代需求的精準洞察。訓練場景強調“快”，推理場景則需“穩”，單一芯片難以同時滿足兩者。第8代TPU的成功，離不開谷歌對全棧技術的深度掌控。從這一代開始，TPU與谷歌自研Axion CPU形成深度協同，CPU-TPU配合方式可根據AI任務需求定制，最大化挖掘性能潛力。能源優化方面，谷歌將范圍擴展至整個鏈路：從芯片到網絡，再到數據中心，均圍繞“省電”重新設計。例如，將網絡連接集成至計算芯片，減少數據搬運；通過統一電源管理動態分配電力；數據中心與TPU協同設計，結合第四代液冷技術，使算力在更高能效區間穩定運行。這些優化使8t與8i的每瓦性能較上一代提升近2倍，數據中心單位電力算力五年內提升6倍。

開發者生態方面，谷歌將全棧能力開放給用戶。8t與8i原生支持PyTorch、JAX、vLLM等主流框架，提供裸機訪問權限，開發者可直接調用硬件真實性能。配合MaxText、Tunix等開源工具，模型訓練到部署的路徑進一步簡化。谷歌此次明確提出“面向Agent時代的基礎設施”定位，從硬件到生態的布局已初見雛形。

第8代TPU的發布，也引發對AI芯片競爭格局的討論。此前，英偉達CEO黃仁勛在播客中回應“TPU威脅論”時表示，TPU僅在特定賽道取得突破，而英偉達通過CUDA生態覆蓋AI、數據處理、科學計算等全場景，市場機會更廣。他強調，英偉達的系統支持所有類型應用，客戶可在任何場景建立需求。然而，隨著AI算力需求持續膨脹，TPU的重要性正被重新評估——至少特斯拉CEO馬斯克已公開表達對TPU潛力的認可。這場硬件競賽的走向，或許將取決于技術突破與生態建設的雙重博弈。

更多>同類天脈資訊

市場波動難把握？中證紅利、自由現金流等ETF或成底倉優選

04-23

創業板指早盤走低，油氣煤炭逆勢上揚，算力硬件調整資金流向引關注

04-23

消費分析師“轉行光模塊”刷屏？真偽難辨背后是資本市場的冰火兩重天

04-23