馬斯克“最聰明”AI Grok3遇難題,9.11與9.9比較竟“翻車”

   時間:2025-02-19 15:01 來源:天脈網作者:鐘景軒

近日,科技巨頭馬斯克攜手xAI團隊,在一場備受矚目的直播活動中,隆重推出了他們最新研發的AI模型——Grok3。這款模型在發布前就被馬斯克譽為“地球上最聰明的AI”,他在個人社交平臺上透露,自己整個周末都沉浸在與團隊的緊張研發中,只為打磨出這款劃時代的產品。

然而,就在Grok3發布后不久,有媒體曝光了關于其Beta版的測試結果,引發了業界的廣泛關注。測試中,有人向Grok3提出了一個AI領域內的經典難題:“9.11與9.9哪個大?”令人遺憾的是,在沒有任何額外修飾或標注的情況下,即便是號稱目前最聰明的Grok3,也未能給出正確答案。這一結果不禁讓人對其“最聰明”的稱號產生了質疑。

相比之下,另一款AI模型DeepSeek在面對同樣的問題時,則展現出了截然不同的表現。無論是否開啟深度思考模式,DeepSeek都能準確回答:“9.9大于9.11。”這一結果無疑為DeepSeek增添了不少光彩。

DeepSeek測試結果截圖

回顧歷史,“9.11和9.9哪個大”這一看似簡單的問題,實則早已成為AI領域內的經典難題。艾倫研究機構的成員林禹臣曾在社交媒體上分享過ChatGPT-4o在這一問題上的“尷尬”表現,認為13.11比13.8更大。這一事件再次證明,盡管AI在數學奧賽題方面越來越擅長,但在處理常識性問題時仍然顯得力不從心。

而此次Grok3的“翻車”事件,也引發了業界對于AI模型能力的進一步思考。事實上,在此之前,Scale AI的提示工程師萊利·古德賽德就曾用類似的問題拷問過當時的主流大模型,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet,結果這些模型都未能給出正確答案。這一事件無疑加劇了業界對于AI模型常識判斷能力的擔憂。

海外主流大模型答題情況

盡管遭遇了這樣的尷尬,但馬斯克對于Grok3的信心并未動搖。在發布會的背景板上,他明確表達了xAI公司的使命:“了解宇宙。”而在一周前的直播中,他還曾信心滿滿地表示,Grok3將在數學、科學與編程方面超越所有主流模型,并預測其未來將用于SpaceX的火星任務計算,甚至有望在三年內實現諾貝爾獎級別的突破。

馬斯克在xAI直播現場

為了提升Grok3的能力,馬斯克透露,團隊在訓練過程中使用了大量合成數據,并借助了由10萬個英偉達H100 GPU驅動的Colossus超級計算機。這臺超級計算機為Grok3的訓練提供了2億個GPU小時的計算資源,比之前的版本多了十多倍。xAI還推出了名為Deepsearch的智能搜索引擎,旨在進一步提升Grok3的應用能力。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號