Nature頂刊新基準:全球頂尖AI模型在“人類終極考試”中表現欠佳

   時間:2026-03-08 02:45 來源:快訊作者:新智元

AI技術發展日新月異,從高德納對Claude破解難題的驚嘆,到數學家陶哲軒宣稱GPT-5.2 Pro解決數學難題達到博士水平,AI在各個領域不斷突破。然而,在被稱為“人類最后的考試”的新基準測試中,即便是最先進的AI模型也表現不佳,最高得分僅8%,這一結果引發了廣泛關注。

隨著AI模型能力的迅速提升,傳統基準測試逐漸失去效力。大規模多任務語言理解(MMLU)等曾被視為高難度的評測,如今AI的準確率已超過90%,甚至接近“飽和”。研究人員指出,這些測試過于簡單,難以真實反映AI的先進水平,更無法確保其安全性和有效性。為了應對這一挑戰,全球近千名研究人員組成聯盟,開發了名為“人類最后的考試”(Humanity’s Last Exam,HLE)的新基準。

HLE由AI安全中心CAIS和Scale AI團隊共同開發,包含3000個極具挑戰性的問題,最終篩選出2500道用于測試。這些問題覆蓋數學、人文學科、自然科學、古代語言及高度專業化的子領域,旨在全面評估AI的能力。每道題都經過領先AI模型的測試,只有那些當前系統無法解答的問題才會被保留,確保測試恰好處于AI能力邊界之外。

初步測試結果顯示,即便是最先進的模型也難以應對HLE的挑戰:GPT-4o僅得2.7%,Claude 3.5 Sonnet為4.1%,而OpenAI的旗艦模型o1也僅取得8%的成績。這一結果凸顯了HLE的高難度,也表明當前AI在復雜、專業化知識領域仍存在明顯局限。

德州農工大學計算機科學與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作,貢獻了73道考題,尤其在數學和計算機科學領域撰寫了大量題目。他指出,HLE的目的并非難倒人類,而是精確揭示AI目前無法完成的任務。盡管AI在傳統基準測試中表現優異,但這些測試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分,但其核心理念是設立一道人類對AI的終極考驗——如果AI能通過,則意味著它達到了專業化人類專家的水平。

HLE的問題需要多年的專門研究才能解答,僅靠互聯網數據的“猜測”無法奏效。例如,考試涵蓋從核物理到古代史的廣泛領域,沒有人類能獨自通過整個考試,但特定領域的專家可以輕松回答其專業內的問題。相比之下,AI在幾乎所有類別上都表現不佳,凸顯了其在深度專業知識方面的不足。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號