時事快聞

馬斯克等大佬點贊！Kimi 論文革新殘差連接，或開啟深度學習新篇

時間：2026-03-18 21:40 來源：快訊作者：孫明

當全球AI領域還在圍繞注意力機制、混合專家模型（MoE）等上層架構展開激烈競爭時，一支中國團隊將突破口對準了深度學習最基礎的組件——殘差連接。月之暗面Kimi團隊發布的《Attention Residuals》技術報告，通過數學推導與工程創新，在保持算力不變的情況下，使模型訓練效果達到傳統方法1.25倍算力投入的水準，這項成果不僅獲得馬斯克、OpenAI核心成員等硅谷頂尖人物的公開認可，更被視為深度學習范式轉型的關鍵信號。

自2015年ResNet論文提出殘差連接以來，這項技術始終是現代神經網絡的核心支柱。其通過在每層網絡中增設"直通通道"，使梯度能夠繞過中間變換直接反向傳播，解決了深層網絡訓練中的梯度消失難題。然而這種"無差別等權疊加"的信息聚合方式，導致模型越深時底層貢獻越微弱，形成所謂的PreNorm稀釋效應——已有研究顯示，部分大模型中超過30%的中間層對最終效果影響可忽略不計。

Kimi團隊的突破源于對注意力機制的深度類比。他們發現殘差連接在深度方向的信息傳遞問題，與循環神經網絡（RNN）在時間方向的信息遺忘具有相同的數學結構。通過將注意力機制從處理序列的橫向維度，旋轉90度應用于網絡深度的縱向維度，創新性地提出"深度方向注意力"：每層網絡配備可學習的查詢向量，根據任務需求動態選擇需要參考的前序層信息，實現信息聚合的精細化控制。

這項被命名為AttnRes的技術實現極具工程智慧。為避免全量連接帶來的內存爆炸問題，團隊開發出Block AttnRes架構，將網絡劃分為若干模塊，模塊內部保留傳統殘差連接，模塊間采用注意力機制進行信息交互。配合跨階段緩存機制與兩階段計算策略，在480億參數規模的實驗中，訓練開銷增幅控制在4%以內，推理延遲增加不超過2%，卻實現了驗證損失的持續降低。

實驗數據顯示，采用AttnRes的模型在15項主流基準測試中全面持平或超越基線，尤其在博士級科學推理（GPQA-Diamond）任務中提升7.5%，數學解題（Math）與代碼生成（Humaneval）分別提升3.6%與3.1%。可視化分析揭示，新架構使各層梯度分布更均勻，既保持了局部信息傳遞的主導性，又形成了跨層的長程依賴關系，這種特性使模型在參數規模擴大時仍能保持性能增益。

這項突破引發的連鎖反應正在顯現。在GTC 2026演講中，Kimi創始人楊植麟披露了系列底層技術創新：MuonClip優化器將計算效率提升至AdamW的兩倍，Kimi Linear架構實現超長上下文5-6倍解碼加速，跨模態訓練甚至提升了純文本任務的性能。這些進展共同勾勒出"Token效率×長上下文×智能體協作"的三維Scaling框架，標志著深度學習進入資源利用效率與系統復雜度協同提升的新階段。

AI產業明星公司Anthropic周四推出旗艦人工智能模型Claude Opus的4.7版本，側重于軟件工程領域的提升，同時在金融分析、視覺能力和創作“品味”方面均實現了長足的進步。在大多數AI模型“跑分”…

04-18

“四個清單”精準發力推動工程建設審批改革邁向新高度

04-18

雷軍15小時直播挑戰：小米SU7 Pro滿電只充一次電，成功跨越京滬1313公里

04-18

國潮好物閃耀消博會：傳統文化賦能，中國品牌加速駛向出海新航道

04-18

A股格局生變：“寧王”沖榜背后：業績支撐與能源戰略新機遇

04-17

雷軍15小時續航直播引關注；大疆新云臺、榮耀新本等多款新品齊發

04-17