實測Grok 3:速度超群數學強,邏輯思考卻非無敵?

   時間:2025-02-23 15:46 來源:天脈網作者:鐘景軒

近期,人工智能領域迎來了一場震撼發布,埃隆·馬斯克旗下的人工智能初創公司xAI推出了其最新力作——Grok 3大模型。馬斯克在發布會上毫不吝嗇地贊譽其為“地球上最聰明的人工智能”,這一聲明迅速引發了業界的廣泛關注與討論。

據官方公布的測試結果,Grok 3在多項基準測試中表現搶眼,尤其是在AIME(數學能力評估)和GPQA(博士級物理學、生物學、化學問題評估)等關鍵領域,其成績遠超GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5及Sonnet等大模型。在備受矚目的大模型競技場Chatbot Arena(LMSYS)測試中,早期版本的Grok 3更是以140分的優異成績奪得榜首,將Gemini 2.0 Flash Thinking實驗版、ChatGPT-4o最新版本及DeepSeek R1等強勁對手甩在身后。

然而,盡管官方數據亮眼,部分用戶在親身體驗后卻對Grok 3的實際能力產生了質疑。他們認為,Grok 3的表現并未達到馬斯克所宣稱的高度。更為戲劇性的是,OpenAI應用研究主管Boris Power公開表達了對Grok團隊評估方法的失望,指責其存在作弊嫌疑,并強調o3-mini在各項評估中的表現均優于Grok 3。

為了探究真相,《每日經濟新聞》記者親自對Grok 3進行了深入測試。測試發現,Grok 3確實展現出了世界頂級AI模型的水平,但在與其他模型的對比中并未形成明顯的優勢。其最突出的特點在于極快的響應速度,這一點遠超其他同等級的大模型。

在基礎問題的測試中,如“9.9和9.11誰大”,Grok 3輕松給出了正確答案。但在面對更為復雜的邏輯思考和文字理解挑戰時,Grok 3的表現則略顯波動。例如,在處理包含邏輯陷阱的“弱智吧”問題時,盡管Grok 3成功答對了部分題目,但在一道涉及因果推理的題目中卻未能給出正確答案。相比之下,DeepSeek R1在此類問題上的表現更為出色。

在數學能力的測試中,Grok 3展現出了其強大的實力。在一道復雜的臺球對局問題中,Grok 3迅速給出了正確答案,且用時遠少于OpenAI的o1。然而,在更為專業的群論問題中,盡管Grok 3答對了最終數量,但在具體群的識別上卻出現了誤差。這表明,盡管Grok 3在數學領域表現優異,但并未與其他同等級模型形成顯著的差距。

在編程能力的測試中,Grok 3同樣展現出了不俗的實力。Kcores聯合創始人karminski-牙醫的測評結果顯示,Grok 3在火星發射計劃的代碼模擬中表現優異,盡管在最終動畫呈現上略有瑕疵,但整體軌道計算精確無誤。在綜合得分上,Grok 3位列第一,緊隨其后的是OpenAI的o1,兩者得分差距較小。

綜合各項測試結果來看,Grok 3無疑是一款實力強勁的AI模型,其表現足以證明其20萬張GPU的身價不菲。然而,在實際測試中,Grok 3并未像基準測試得分那樣遠遠甩開對手,其最突出的優勢在于極快的響應速度。至于馬斯克所宣稱的“地球上最聰明的人工智能”這一稱號,或許還有待商榷。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號