近期,科技界巨頭埃隆·馬斯克攜其xAI團隊,在一場備受矚目的直播活動中,正式揭曉了備受期待的Grok 3。此前,馬斯克通過一系列精心策劃的預熱,成功將公眾對Grok 3的關注度推向巔峰。
在發布會上,馬斯克信心滿滿地宣布,Grok 3在數學、科學與編程領域的基準測試中,表現超越了所有主流模型,并計劃將其應用于SpaceX的火星任務計算中。他甚至大膽預測,未來三年內,Grok 3有望實現諾貝爾獎級別的科學突破。
然而,Grok 3的實際測試表現卻與馬斯克的豪言壯語大相徑庭。發布會后,多家媒體對Grok 3的最新Beta版進行了測試,并提出了一個經典難題:“9.11與9.9哪個大?”令人驚訝的是,被譽為“最聰明”的Grok 3竟然無法正確回答這個問題,這一尷尬表現迅速在網絡上引發嘲諷,被網友戲稱為“天才不屑回答簡單問題”。
不僅如此,在xAI發布會直播期間,當Grok 3被用于分析游戲《流放之路 2》的職業與升華效果時,也給出了大量錯誤答案,而馬斯克本人在直播中并未發現這些明顯的錯誤。這一連串的失誤,無疑給Grok 3的發布會蒙上了一層陰影。
盡管在官方PPT中,Grok 3在大模型競技場Chatbot Arena中的表現看似遙遙領先,但實際上,它與DeepSeek R1和GPT4.0的差距僅為1%到2%。這一細微的差距,無疑揭示了隨著模型規模的擴大,性能提升的邊際效應已經愈發明顯。
為了證明Grok 3的強大,馬斯克在發布會上透露,該模型使用了超過20萬張H100芯片,總訓練小時數更是達到了驚人的兩億小時。然而,與之形成鮮明對比的是,DeepSeek V3僅使用了2000張H800芯片,訓練時間也僅為兩個月,但其性能卻與Grok 3不相上下。這一對比,無疑給馬斯克和xAI團隊帶來了不小的壓力。
面對外界的質疑和嘲諷,馬斯克在社交媒體上迅速作出回應。他表示,當前的Grok 3仍處于測試階段,完整版將在未來幾個月內推出,并誠邀用戶反饋使用過程中遇到的問題。這一表態,似乎是在為Grok 3的未來表現留下了一絲懸念。













