科技領域近日迎來一則備受矚目的消息:特斯拉與SpaceX創始人埃隆·馬斯克,在社交平臺X上對一家中國AI公司月之暗面的技術成果公開點贊,稱其“做出了令人印象深刻的結果”。這一表態在AI圈引發廣泛關注,畢竟馬斯克向來以在AI領域觀點犀利、要求嚴苛著稱,此前沒少批評Anthropic和OpenAI,甚至曾直言Anthropic的圖標設計不妥。
馬斯克此次點贊的并非模型,而是月之暗面團隊提出的一種全新架構改進方式。現代大語言模型,無論是GPT、Claude,還是國內的豆包、DeepSeek,以及月之暗面自家的K2.5,底層架構都基于Transformer。而Transformer能訓練到幾十層甚至上百層不崩潰,得益于“殘差連接”機制。該機制由何愷明在2015年參與的ResNet論文提出,后被Transformer沿用。其原理是每一層網絡計算后,將輸出與輸入相加傳至下一層,如此梯度在反向傳播時可直達底層,避免因層數過深而消失。
然而,這種“加法”存在一定問題。不同層輸出的信息在最終隱藏狀態中權重相同,隨著層數增加,早期層信息被稀釋,后面層需輸出更大數值才能產生影響,進而加劇不穩定性,這一現象被稱為“PreNorm稀釋”。月之暗面團隊發現,這一問題與早年RNN面臨的困境有結構上的對稱性。RNN在時間維度上做固定權重累加,長距離依賴難以捕捉,Transformer用注意力機制替代其線性累加,解決了該問題。但在深度維度上,同樣的問題卻一直未得到解決。
月之暗面團隊認為,標準殘差連接本質是“深度維度上的線性注意力”,他們計劃將其升級為“深度維度上的softmax注意力”,并提出了“理想版”方案——全注意力殘差。具體做法是給每一層賦予可學習的查詢向量,對之前所有層輸出做注意力計算,產生歸一化權重,當前層輸入按此權重加權組合,不同token經過同一層時可從不同歷史層提取信息。但這一方案在大規模訓練時存在內存和通信開銷過大的問題,因為需要存儲和傳遞所有層輸出。
為解決這一問題,團隊又提出塊注意力殘差方案。他們將所有層分成若干塊,塊內用傳統殘差連接求和,塊間用注意力機制選擇性聚合。這樣只需存儲和傳輸每個塊的匯總表示,內存占用大幅降低。在此基礎上,團隊還進行了一系列工程優化,如跨階段緩存消除流水線并行中的冗余傳輸,兩階段推理策略分攤跨塊注意力計算。最終,注意力殘差作為標準殘差連接的替代品,訓練額外開銷小,推理延遲增加不到2%。
團隊通過兩個實驗驗證這一改進的效果。在scaling law實驗中,結果顯示注意力在所有計算預算下都優于基線,效果相當于用1.25倍計算量訓練出的基線模型。在實戰驗證中,團隊用480億參數的大模型,用超一萬億個詞的數據進行完整預訓練,在科學問答、數學推理、代碼生成、綜合知識等測試中,加了塊注意力殘差的版本全面超越未加的版本。訓練動態分析也表明,塊注意力殘差緩解了PreNorm稀釋問題,各層輸出幅度穩定,梯度分布均勻。
論文還通過統一的結構化矩陣分析證明,標準殘差連接及其變體本質都是深度維度上線性注意力的特例。自2015年ResNet以來,殘差連接板塊無實質性變化,而月之暗面的這篇論文是首個既有理論依據,又能大規模實際部署且低成本的方案,這也是馬斯克點贊的原因。
月之暗面目前正處于上市前的關鍵階段,融資進展順利。2025年12月底完成5億美元C輪融資,投后估值43億美元;兩個月后完成超7億美元C+輪融資,投后估值突破100億美元;3月中最新投前估值上升至180億美元,新一輪10億美元融資正在推進,3個月內估值增長超4倍。其Kimi K2.5模型發布不到一個月,累計收入就超過2025年全年總收入,個人訂閱用戶支付訂單數在1月環比增長8280%,2月又環比增長123.8%,進入Stripe全球榜單前十。
不過,月之暗面也面臨一些爭議。幾天前,OpenClaw創始人彼得·斯坦伯格公開質疑月之暗面的Kimi Claw產品。月之暗面此前推出OpenClaw的云端一鍵部署服務Kimi Claw,其邏輯與OpenClaw“本地優先”的設計理念相悖。OpenClaw的agent運行在用戶設備上,數據不經過第三方,大模型僅提供操作指令。而Kimi Claw將數據搬到云端服務器,在安全和隱私層面風險不同。斯坦伯格的質疑在社區產生實際影響,最初詢問的用戶表示鑒于安全性問題,暫時不會使用該產品。
此時馬斯克的點贊恰逢其時,在輿論場上,OpenClaw創始人的質疑與馬斯克的認可形成鮮明對比。對于正在融資的月之暗面而言,馬斯克的認可無疑極具分量,盡管不能過度解讀其一條推文,但這一表態還是讓更多人開始關注這篇論文,一個十一年未被觸動的組件被重新審視,后續發展值得期待。












