今日快訊:AI榜單“變天”了！馬斯克發布Grok 4.1，盲測排名登頂第一

時間：2025-11-18 09:26:06

就在OpenAI發布GPT-5.1，大談“情商”之際，埃隆·馬斯克（Elon Musk）也帶著他的xAI，火速加入了這場“AI體驗”之戰。

(相關資料圖)

就在剛剛，xAI宣布推出Grok 4.1，這是對現有Grok 4模型的重大升級，并已在grok.com、X平臺以及iOS和Android應用向所有用戶全面開放。。官方宣稱，新版本在創意表達、情感互動和協同交流方面表現尤為突出，并且出現幻覺的概率僅為此前模型的三分之一。

更引人注目的是，在一個公開的“盲測”競技場（LMArena）上，Grok 4.1的“思考模式”版本已悄然登頂總榜第一，甚至其“非推理”的快速模式，都擊敗了所有對手的“完整推理”模式。

這場突如其來的“榜首易主”，無疑為日趨白熱化的AI競賽，又增添了濃重的火藥味。

Grok 4.1升級了什么？

xAI本次發布了兩個Grok 4.1模型：Grok 4.1（非推理模式）和 Grok 4.1 Thinking（思考模式）。這兩個模型均可免費使用，但付費用戶面臨的限制更少。

官方表示，新版本能更細致地理解隱含意圖，與之對話引人入勝，也更能保持人設的一致性。

為了優化模型的風格、人格和有用性，xAI利用前沿的代理型推理模型（agentic reasoning models）作為“獎勵模型”，在大規模環境中自主評估并迭代模型的回答。

在11月1日至14日的“靜默上線”期間，xAI在真實流量上進行了盲測式的成對比較評估，結果顯示，在64.78%的情況下，用戶更偏好Grok 4.1。

“盲測”登頂，Grok 4.1到底有多強？

Grok 4.1在盲測的人類偏好評估中樹立了新的行業標準。

LMArena是一個開源工具，用戶可以通過并排、盲測的方式，比較不同大語言模型的表現。在這個競爭最激烈的“斗獸場”里，Grok 4.1取得了驚人的成績：

· Grok 4.1的“思考模式”（代號：quasarflux）以1483 Elo的成績位列總榜第一，領先所有非xAI模型31分。

· Grok 4.1的“非推理模式”（代號：tensor）無需使用“思考詞元”（thinking tokens），可立即生成回答，并以1465 Elo的成績排名第二。

· 更夸張的是，Grok 4.1的“非推理”模式表現，超過了所有其他模型在“完整推理模式”下的公開排行榜成績。

與之相比， Grok 4此前在該榜單上的綜合排名僅為第33位。

“情商”與“文采”，一個都不能少

除了通用能力，xAI還強調了新模型在“軟實力”上的提升。

· 情緒智能（Emotional Intelligence）為評估模型在個性與人際互動方面的進展，xAI對Grok 4.1進行了EQ-Bench3測試。這是一項由LLM作為裁判的測試，用于評估模型在主動情緒智能、理解力、洞察力、共情能力和人際技能方面的表現。

· 創意寫作能力（Creative Writing）xAI同樣測量了Grok 4.1在Creative Writing v3基準測試中的表現。在該測試中，模型需要根據32個不同的寫作提示，在3次迭代中生成回答。

更少的“幻覺”

快速響應模型在配備搜索工具后，雖然能迅速給出答案，但更容易出現事實性錯誤。

在Grok 4.1的后訓練階段，xAI重點降低了模型在信息查詢類提示中的事實性“幻覺”。

根據xAI的說法，Grok 4.1出現幻覺的概率是此前模型的三分之一，這使其成為xAI迄今為止的最佳版本之一。

為了驗證這一點，xAI不僅在真實的生產流量中進行了評估，還使用了FActScore——一個包含500道關于人物傳記問題的公開基準測試。

挑戰與未來：真正的對手還在路上

盡管Grok 4.1的“盲測”成績斐然，但AI的王座之爭遠未結束。

目前，我們尚不清楚它與GPT-5.1相比的真實表現。

更重要的是，谷歌（Google）正在準備發布Gemini 3.0，這可能會成為迄今為止最強大的模型。

Grok 4.1的發布，無疑是馬斯克在AI競賽中投下的一枚重要棋子。但在這場“神仙打架”的牌局中，誰能笑到最后，還遠未可知。（易句）

（本文由AI翻譯，網易編輯負責校對）

關鍵詞：馬斯克盲測 grok 推理

延伸閱讀:

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

科技

· 美柚怎么記錄當天飲食？美柚如何查看所有經
· OPPOFindX6怎么打開省電模式？oppofindx6如
· 穩定好用的ip代理軟件有什么？ip地址查詢位
· 維詞在哪里修改發音次數？維詞app是免費的
· 豆瓣怎么知道版本號？豆瓣如何發布租房信息
· 酷狗音樂怎么刪除訪客記錄？酷狗音樂怎么下
· 微信錢包密碼鎖具體在哪設置？面容解鎖可以
· 12306臨時身份證二維碼如何檢票？臨時身份
· 12306積分怎么快速兌換車票？12306的臨時身
· chatGpT英語怎么讀？chatgpt為什么忽然回答

熱文

暑期跑了兩個月外賣大一新生攢錢買摩托車從西昌騎來重慶報到
廣西梧州：允許公積金用作購房前期資金支持多子女公積金繳存人家庭住房需求
資產配置，找到低相關的資產
跨界玩家爭當供應商，真能比主機廠更賺錢？
“專網通信案”余波未了國瑞科技、恒寶股份收行政處罰事先告知書
科創板晚報｜創耀科技：星閃芯片不會用于手機終端經緯恒潤擬與江鈴集團共同投建汽車智能電動平臺項目
360瀏覽器8.1 瀏覽器醫生在哪（360瀏覽器醫生在哪）
老黨員社區宣講廉潔故事，弘揚清廉家風
螞蟻集團王曉航：金融業務鏈條上的關鍵環節都值得用大模型技術重做一次
PC低迷周期尋亮點機構關注“聯想方案”

国产爱久久久精品_看**视频一一级毛片_91啪国自产中文字幕在线_国内精品伊人久久久久妇

科技

熱文