時事快聞

馬斯克點贊Kimi：十一年未變的深度學習基石組件迎來新突破

時間：2026-03-17 12:59 來源：天脈網作者：楊凌霄

科技領域近日迎來一則備受矚目的消息：特斯拉與SpaceX創始人埃隆·馬斯克，在社交平臺X上對一家中國AI公司月之暗面的技術成果公開點贊，稱其“做出了令人印象深刻的結果”。這一表態在AI圈引發廣泛關注，畢竟馬斯克向來以在AI領域觀點犀利、要求嚴苛著稱，此前沒少批評Anthropic和OpenAI，甚至曾直言Anthropic的圖標設計不妥。

馬斯克此次點贊的并非模型，而是月之暗面團隊提出的一種全新架構改進方式。現代大語言模型，無論是GPT、Claude，還是國內的豆包、DeepSeek，以及月之暗面自家的K2.5，底層架構都基于Transformer。而Transformer能訓練到幾十層甚至上百層不崩潰，得益于“殘差連接”機制。該機制由何愷明在2015年參與的ResNet論文提出，后被Transformer沿用。其原理是每一層網絡計算后，將輸出與輸入相加傳至下一層，如此梯度在反向傳播時可直達底層，避免因層數過深而消失。

然而，這種“加法”存在一定問題。不同層輸出的信息在最終隱藏狀態中權重相同，隨著層數增加，早期層信息被稀釋，后面層需輸出更大數值才能產生影響，進而加劇不穩定性，這一現象被稱為“PreNorm稀釋”。月之暗面團隊發現，這一問題與早年RNN面臨的困境有結構上的對稱性。RNN在時間維度上做固定權重累加，長距離依賴難以捕捉，Transformer用注意力機制替代其線性累加，解決了該問題。但在深度維度上，同樣的問題卻一直未得到解決。

月之暗面團隊認為，標準殘差連接本質是“深度維度上的線性注意力”，他們計劃將其升級為“深度維度上的softmax注意力”，并提出了“理想版”方案——全注意力殘差。具體做法是給每一層賦予可學習的查詢向量，對之前所有層輸出做注意力計算，產生歸一化權重，當前層輸入按此權重加權組合，不同token經過同一層時可從不同歷史層提取信息。但這一方案在大規模訓練時存在內存和通信開銷過大的問題，因為需要存儲和傳遞所有層輸出。

為解決這一問題，團隊又提出塊注意力殘差方案。他們將所有層分成若干塊，塊內用傳統殘差連接求和，塊間用注意力機制選擇性聚合。這樣只需存儲和傳輸每個塊的匯總表示，內存占用大幅降低。在此基礎上，團隊還進行了一系列工程優化，如跨階段緩存消除流水線并行中的冗余傳輸，兩階段推理策略分攤跨塊注意力計算。最終，注意力殘差作為標準殘差連接的替代品，訓練額外開銷小，推理延遲增加不到2%。

團隊通過兩個實驗驗證這一改進的效果。在scaling law實驗中，結果顯示注意力在所有計算預算下都優于基線，效果相當于用1.25倍計算量訓練出的基線模型。在實戰驗證中，團隊用480億參數的大模型，用超一萬億個詞的數據進行完整預訓練，在科學問答、數學推理、代碼生成、綜合知識等測試中，加了塊注意力殘差的版本全面超越未加的版本。訓練動態分析也表明，塊注意力殘差緩解了PreNorm稀釋問題，各層輸出幅度穩定，梯度分布均勻。

論文還通過統一的結構化矩陣分析證明，標準殘差連接及其變體本質都是深度維度上線性注意力的特例。自2015年ResNet以來，殘差連接板塊無實質性變化，而月之暗面的這篇論文是首個既有理論依據，又能大規模實際部署且低成本的方案，這也是馬斯克點贊的原因。

月之暗面目前正處于上市前的關鍵階段，融資進展順利。2025年12月底完成5億美元C輪融資，投后估值43億美元；兩個月后完成超7億美元C+輪融資，投后估值突破100億美元；3月中最新投前估值上升至180億美元，新一輪10億美元融資正在推進，3個月內估值增長超4倍。其Kimi K2.5模型發布不到一個月，累計收入就超過2025年全年總收入，個人訂閱用戶支付訂單數在1月環比增長8280%，2月又環比增長123.8%，進入Stripe全球榜單前十。

不過，月之暗面也面臨一些爭議。幾天前，OpenClaw創始人彼得·斯坦伯格公開質疑月之暗面的Kimi Claw產品。月之暗面此前推出OpenClaw的云端一鍵部署服務Kimi Claw，其邏輯與OpenClaw“本地優先”的設計理念相悖。OpenClaw的agent運行在用戶設備上，數據不經過第三方，大模型僅提供操作指令。而Kimi Claw將數據搬到云端服務器，在安全和隱私層面風險不同。斯坦伯格的質疑在社區產生實際影響，最初詢問的用戶表示鑒于安全性問題，暫時不會使用該產品。

此時馬斯克的點贊恰逢其時，在輿論場上，OpenClaw創始人的質疑與馬斯克的認可形成鮮明對比。對于正在融資的月之暗面而言，馬斯克的認可無疑極具分量，盡管不能過度解讀其一條推文，但這一表態還是讓更多人開始關注這篇論文，一個十一年未被觸動的組件被重新審視，后續發展值得期待。

更多>同類天脈資訊

消博會上江蘇好物齊亮相科技與品質融合展現消費新魅力

04-17

OpenAI升級Agents SDK：沙箱護航智能體，安全穩定擴展一步到位

智東西4月16日報道，今天，OpenAI更新其Agents SDK（智能體軟件開發工具包），更新內容包括新增原生沙箱執行環境，讓智能體在受控的計算機環境中安全運行；升級分布內管控框架，支持智能體在指定工作空…

04-17

珠海直播電商交流活動：架協作橋梁賦企業動能促產業升級

04-17

2026年一季度中國經濟穩健運行，GDP達4.8萬億與美國差距幾何？

04-17