科技領域近日因一則動態引發廣泛討論:特斯拉創始人馬斯克在社交平臺X上,對一家中國AI企業的技術成果公開表達贊賞。他評論稱“月之暗面團隊做出了令人印象深刻的工作”,這一表態迅速引發行業關注。作為以直言不諱著稱的科技領袖,馬斯克此前曾多次批評OpenAI、Anthropic等機構,此次對中國團隊的認可顯得尤為特別。
引發關注的成果并非新模型,而是一篇聚焦底層架構的技術論文。月之暗面團隊提出用“注意力殘差”替代Transformer架構中自2015年沿用至今的“殘差連接”機制。傳統殘差連接通過將各層輸出直接相加傳遞信息,但隨著模型深度增加,早期層的信息會被稀釋,導致訓練不穩定。這一設計雖被廣泛采用,卻始終存在理論缺陷。
研究團隊從Transformer的注意力機制獲得靈感,提出讓模型動態決定各層信息的權重。新方案通過可學習的查詢向量,對歷史層輸出進行注意力計算,生成加權組合而非簡單求和。這相當于為模型配備“智能篩選器”,能根據輸入內容選擇性地提取關鍵信息。實驗數據顯示,采用該架構的模型在科學問答、數學推理等任務中表現顯著提升,且訓練效率相當于傳統方法1.25倍計算量的效果。
為解決大規模部署的內存瓶頸,團隊進一步提出“塊注意力殘差”優化方案。通過將模型分層分組,僅在組間應用注意力機制,內存占用降低90%以上,推理延遲增加不足2%。這種“分而治之”的策略,使理論創新成功轉化為工程實踐。論文通過統一的結構化矩陣分析證明,此前所有殘差連接變體本質上都是該方案的線性特例。
這項突破正值月之暗面融資關鍵期。2025年末至2026年初,該公司連續完成三輪融資,估值從43億美元飆升至180億美元。其K2.5模型發布首月收入即超2025全年總和,個人訂閱用戶支付訂單數連續兩月環比增長超100倍,躋身全球支付平臺Stripe榜單前十。但高速發展也伴隨爭議——近期推出的云端部署服務Kimi Claw,因數據存儲方式與開源項目OpenClaw的“本地優先”理念沖突,遭到該項目創始人公開質疑。
馬斯克的點贊恰逢爭議發酵期,為這場討論增添新維度。盡管其表態未必涉及商業合作,但在資本市場敘事中,頂級科技領袖的認可往往具有特殊分量。該論文發布后,原本聚焦應用層的研究者開始重新審視底層架構創新,這場持續十一年的技術組件革新,或將引發行業連鎖反應。目前,研究團隊已開放代碼庫,全球多個實驗室正嘗試復現其實驗結果。













