在近日舉辦的英偉達GTC大會上,一場關于AI計算架構的革命性變革引發全球關注。英偉達創始人黃仁勛身著標志性皮衣登臺,宣布公司正式從"芯片制造商"向"AI基礎設施工廠"轉型,并公布了新一代Vera Rubin平臺的全貌——這個包含7款芯片的"全家桶"系統,標志著AI算力競爭進入系統級博弈的新階段。
核心突破來自名為Groq 3的語言處理單元(LPU)。這款采用500MB片上SRAM的芯片,通過150TB/s的內存帶寬顛覆了傳統AI加速器的設計邏輯。相較于依賴HBM的GPU架構,LPU在解碼階段的帶寬優勢達到7倍,特別適用于需要微秒級響應的智能體交互場景。英偉達超大規模計算副總裁Ian Buck形象比喻:"GPU像卡車運送海量貨物,LPU則是摩托車在擁堵城市中靈活穿梭。"
系統級整合成為關鍵創新。Vera Rubin平臺將Vera CPU、Rubin GPU與LPU通過NVLink-C2C技術連接,形成預填充-解碼的流水線作業模式。在演示中,集成72顆Rubin GPU和36顆Vera CPU的NVL72機架,訓練萬億參數模型所需的GPU數量減少75%,而推理能效比提升10倍。更引人注目的是,通過Dynamo軟件框架的智能調度,AI代理間的通信速度從每秒100token躍升至1500token。
制造環節的突破同樣值得關注。黃仁勛在演講中特別感謝三星電子,確認其成為Groq 3 LPU的獨家代工廠。這款采用三星4nm工藝的芯片將于2026年第三季度量產,首批256顆LPU組成的LPX機架可提供128GB片上內存和640TB/s總帶寬。盡管單個LPU的內存容量有限,但通過數量堆疊與液冷散熱設計,英偉達構建出全新的推理加速范式。
市場格局因此生變。傳統上在訓練市場占據絕對優勢的英偉達,正通過LPU補齊推理領域的短板。測試數據顯示,新架構在運行萬億參數模型時,每瓦特推理性能提升35倍,每百萬token成本降至45美元。這種性能躍升使得OpenAI、Anthropic等頭部企業成為潛在客戶,預計將率先在多智能體系統中部署該技術。
技術代價與工程妥協同樣明顯。SRAM的高成本與大面積占用,迫使英偉達采用機架級解決方案。每個LPX機架需要640TB/s的專用互聯接口,且芯片數量需求遠超傳統架構。Ian Buck承認:"從單位芯片的經濟性看,LPU的token吞吐量成本并不占優。"但英偉達認為,在智能體交互成為主流的未來,這種設計是必要的技術儲備。
這場變革也重塑了半導體供應鏈。三星通過承接LPU代工訂單,從存儲供應商升級為全面制造伙伴,與臺積電在AI芯片領域形成直接競爭。而英偉達保持的CUDA生態兼容性,則確保現有客戶無需重構代碼即可升級系統,這種"軟硬協同"的策略可能成為其鞏固市場地位的關鍵。












