Grok 3實測:速度超群數學強,邏輯思考能否超越DeepSeek R1仍是問號

   時間:2025-02-23 16:02 來源:天脈網作者:顧青青

人工智能領域近日迎來重大突破,初創公司xAI發布的Grok 3大模型引發了廣泛關注。這款模型由科技巨頭埃隆·馬斯克背書,被其譽為“地球上最聰明的人工智能”。

據官方公布的數據,Grok 3在多項基準測試中表現卓越,超越了GPT-4o、Gemini-2 Pro、DeepSeek V3和Claude 3.5等多個知名大模型。特別是在AIME(數學能力評估)和GPQA(博士級別科學問題評估)測試中,Grok 3的成績尤為亮眼。在大模型競技場Chatbot Arena(LMSYS)的測試中,Grok 3也取得了第一名,得分高達140分。

然而,盡管官方數據耀眼,部分用戶在實際體驗后卻對Grok 3的能力表示質疑。他們認為,這款模型的表現并未達到馬斯克所宣稱的高度。OpenAI應用研究主管Boris Power更是公開表示失望,指責Grok團隊在模型評估中存在作弊嫌疑,并指出o3-mini在各項評估中均優于Grok 3。

為了驗證Grok 3的真實水平,《每日經濟記者》進行了一系列測試。測試結果顯示,Grok 3確實具備世界頂級模型的能力,但在與其他模型的對比中并未拉開太大差距。值得注意的是,Grok 3的響應速度極快,這是其顯著優于其他模型的一點。

在基礎問題測試中,如“9.9和9.11誰大”,Grok 3輕松給出了正確答案。然而,在邏輯思考和文字理解能力方面,Grok 3的表現卻略顯不足。例如,在面對一個包含邏輯陷阱的問題時,Grok 3雖然答對了問題,但并未完全展現出其邏輯推理能力的優勢。相比之下,DeepSeek R1模型在此類問題上的表現更為出色。

在數學能力測試中,Grok 3展現出了其強大的實力。在一道復雜的臺球問題中,Grok 3迅速給出了正確答案,且用時遠少于其他模型。然而,在解決更高難度的群論問題時,盡管Grok 3答對了最終數量,但在具體群的識別上卻出現了一個錯誤。這表明,盡管Grok 3在數學方面表現出色,但并未與其他同等級模型拉開顯著差距。

在編程能力方面,Grok 3也展現出了不俗的實力。Kcores聯合創始人karminski-牙醫的測評結果顯示,Grok 3在模擬火星發射計劃的代碼時表現優異,雖然動畫效果略有不足,但軌道需求計算得非常準確。最終,Grok 3在編程能力測試中險勝OpenAI的o1模型。

綜合各項測試結果來看,Grok 3確實是一款世界頂尖的AI模型,其強大的能力和極快的響應速度令人印象深刻。然而,盡管馬斯克對其贊譽有加,但實測結果并未完全達到其宣稱的高度。因此,關于Grok 3是否真的是“地球上最聰明的人工智能”,或許還需要更多的驗證和探討。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號