谷歌TPU正以驚人的速度崛起,成為英偉達在AI芯片領域最強勁的挑戰者。隨著谷歌Gemini 3的發布,其背后的TPU架構再次成為全球科技界關注的焦點。資本市場迅速做出反應,谷歌股價的攀升引發了新一輪討論:TPU是否真的具備與英偉達GPU一較高下的實力?
SemiAnalysis,這家在半導體和人工智能領域頗具影響力的研究機構,近期發布了一份由12位作者共同撰寫的深度分析報告。報告明確指出,谷歌TPUv7已正式向英偉達發起挑戰,標志著AI硬件市場的格局可能迎來重大變革。報告的核心觀點在于,谷歌通過打破長期以來的內部自用慣例,開始大規模向外部客戶銷售TPU硬件及算力服務,這一戰略轉變正在重塑行業生態。
Anthropic是谷歌TPU商業化進程中的關鍵合作伙伴。這家公司已部署超過1GW的TPU集群,成為谷歌TPU的重要客戶。盡管在單芯片理論參數上,TPU未必全面超越英偉達GPU,但谷歌憑借卓越的系統級工程能力,如ICI互聯和光路交換技術,實現了極高的實際模型算力利用率(MFU)。更關鍵的是,谷歌TPU的總體擁有成本(TCO)比英偉達GB200系統低約30%-40%,這一優勢使其在性價比方面具備顯著競爭力。
軟件生態的短板曾是TPU推廣的主要障礙。為彌補這一不足,谷歌正積極推動TPU與PyTorch原生環境的兼容,并加強對vLLM等開源生態的支持。這些舉措旨在從根基上瓦解英偉達CUDA的護城河,吸引更多開發者轉向TPU平臺。目前,谷歌已在多個TPU軟件倉庫中顯著增加了貢獻,特別是在vLLM支持方面,自3月以來貢獻量大幅上升,5月還創建了官方的vLLM TPU統一后端倉庫。
英偉達對TPU的崛起并非無動于衷。面對谷歌的挑戰,英偉達強調其GPU在性能、通用性和可替代性方面仍具有優勢,并指出自己是唯一能夠運行所有AI模型、適用于各種計算場景的平臺。然而,市場動態已顯示出變化跡象。OpenAI雖尚未部署TPU,但僅憑“可能轉向TPU”的談判籌碼,就已從英偉達處獲得約30%的成本優惠。這一案例表明,TPU的商業化正在對英偉達的客戶策略產生實質性影響。
TPU的設計理念也在隨著大模型時代的到來而轉變。早期的TPU更注重硬件的可靠性和低算力強度的工作負載,如推薦系統模型。但隨著AI模型規模的擴大,谷歌推出了TPUv6 Trillium和TPUv7 Ironwood等新一代產品,在FLOPs、內存和帶寬方面幾乎追平了英偉達的旗艦GPU。盡管TPUv7的全面上市時間比英偉達Blackwell晚了一年,但其每顆芯片在全規模部署下的TCO比英偉達GB200服務器低44%,這一優勢足以彌補峰值性能上的微小差距。
Anthropic選擇TPU的原因不僅在于成本,更在于其能夠通過自定義內核實現高模型FLOPs利用率(MFU)。該公司擁有強大的工程團隊和前谷歌編譯器專家,能夠深入理解TPU堆棧和自身模型架構,從而彌補TPU軟件堆棧開箱即用性能較弱的不足。這種技術優勢使Anthropic在使用TPU時能夠實現比商用GPU更高的每PFLOP成本性能。
谷歌的TPU戰略仍面臨挑戰。盡管在外部化方面取得進展,但其XLA圖編譯器、網絡庫和TPU運行時仍未開源,且文檔記錄不完善,這給開發者帶來了調試困難。用于多Pod訓練的MegaScale代碼庫也未開源,限制了TPU生態系統的擴展性。若谷歌能進一步開放這些核心組件,或許能加速TPU的普及,就像PyTorch和Linux的開源策略推動了其廣泛采用一樣。












