時事快聞

Nature頂刊新基準：全球頂尖AI模型在“人類終極考試”中表現欠佳

時間：2026-03-08 02:45 來源：快訊作者：新智元

AI技術發展日新月異，從高德納對Claude破解難題的驚嘆，到數學家陶哲軒宣稱GPT-5.2 Pro解決數學難題達到博士水平，AI在各個領域不斷突破。然而，在被稱為“人類最后的考試”的新基準測試中，即便是最先進的AI模型也表現不佳，最高得分僅8%，這一結果引發了廣泛關注。

隨著AI模型能力的迅速提升，傳統基準測試逐漸失去效力。大規模多任務語言理解（MMLU）等曾被視為高難度的評測，如今AI的準確率已超過90%，甚至接近“飽和”。研究人員指出，這些測試過于簡單，難以真實反映AI的先進水平，更無法確保其安全性和有效性。為了應對這一挑戰，全球近千名研究人員組成聯盟，開發了名為“人類最后的考試”（Humanity’s Last Exam，HLE）的新基準。

HLE由AI安全中心CAIS和Scale AI團隊共同開發，包含3000個極具挑戰性的問題，最終篩選出2500道用于測試。這些問題覆蓋數學、人文學科、自然科學、古代語言及高度專業化的子領域，旨在全面評估AI的能力。每道題都經過領先AI模型的測試，只有那些當前系統無法解答的問題才會被保留，確保測試恰好處于AI能力邊界之外。

初步測試結果顯示，即便是最先進的模型也難以應對HLE的挑戰：GPT-4o僅得2.7%，Claude 3.5 Sonnet為4.1%，而OpenAI的旗艦模型o1也僅取得8%的成績。這一結果凸顯了HLE的高難度，也表明當前AI在復雜、專業化知識領域仍存在明顯局限。

德州農工大學計算機科學與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作，貢獻了73道考題，尤其在數學和計算機科學領域撰寫了大量題目。他指出，HLE的目的并非難倒人類，而是精確揭示AI目前無法完成的任務。盡管AI在傳統基準測試中表現優異，但這些測試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分，但其核心理念是設立一道人類對AI的終極考驗——如果AI能通過，則意味著它達到了專業化人類專家的水平。

HLE的問題需要多年的專門研究才能解答，僅靠互聯網數據的“猜測”無法奏效。例如，考試涵蓋從核物理到古代史的廣泛領域，沒有人類能獨自通過整個考試，但特定領域的專家可以輕松回答其專業內的問題。相比之下，AI在幾乎所有類別上都表現不佳，凸顯了其在深度專業知識方面的不足。

更多>同類天脈資訊

科技賽道領航公募基金表現，近一年307只產品凈值漲幅破百

04-11

凈利率1%仍堅持低價策略，奧樂齊以“毛利金字塔”深耕上海市場

04-11

博眾精工2025年業績飄紅新能源與消費電子雙輪驅動增長

04-11

AI熱潮催生存儲芯片超級周期，閃迪將入納指100，過去一年股價飆升超25倍

04-11

全球AI科技產業競爭白熱化：十大核心事件揭示技術新格局與產業新動向

04-11