一文了解馬斯克發(fā)布Grok3大模型 多項(xiàng)測(cè)試超越DeepSeek 展現(xiàn)強(qiáng)勁競(jìng)爭(zhēng)力
xAI今日發(fā)布新一代大語言模型Grok-3及其精簡(jiǎn)版Grok-3 mini。
最新基準(zhǔn)測(cè)試顯示,Grok-3在與DeepSeek的直接對(duì)比中展現(xiàn)出顯著優(yōu)勢(shì)。
在數(shù)學(xué)能力測(cè)試(AIME'24)中,Grok-3獲得52分,明顯超過DeepSeek-V3的39分。
科學(xué)知識(shí)評(píng)估(GPQA)方面,Grok-3以75分的成績(jī)領(lǐng)先,而DeepSeek-V3為65分。
在編程能力測(cè)試(LCB Oct-Feb)中,Grok-3同樣以57分超過DeepSeek-V3的36分。
最新公布的AIME 2025性能測(cè)試中,Grok-3 Reasoning Beta版本在推理和計(jì)算時(shí)間復(fù)合評(píng)分上取得93分的優(yōu)異成績(jī),其精簡(jiǎn)版本Grok-3 mini也達(dá)到了90分。
相比之下,DeepSeek-R1的得分為75分,而Gemini-2 Flash Thinking僅為54分。
這一結(jié)果進(jìn)一步凸顯了Grok-3在復(fù)雜數(shù)學(xué)推理和計(jì)算效率方面的突出優(yōu)勢(shì)。
特別值得注意的是,DeepSeek近期發(fā)布的DeepSeek-R1在其他推理能力測(cè)試中也未能趕超Grok-3。
在數(shù)學(xué)推理中,Grok-3獲得93分,DeepSeek-R1為73分;科學(xué)推理中,Grok-3得分85分,DeepSeek-R1為74分;編程推理中,Grok-3達(dá)到79分,而DeepSeek-R1為65分。
在LMSYS聊天機(jī)器人競(jìng)技場(chǎng)評(píng)估中,Grok-3的得分約為1400分,不僅超過了DeepSeek系列,也領(lǐng)先于其他主流大模型,包括GPT-4、Claude等。
這些數(shù)據(jù)表明,盡管DeepSeek在過去幾個(gè)月展現(xiàn)出強(qiáng)勁的發(fā)展勢(shì)頭,但Grok-3的整體性能仍然保持領(lǐng)先地位。
特別是在數(shù)學(xué)推理和計(jì)算效率方面的優(yōu)勢(shì)更為明顯,這不僅體現(xiàn)了xAI在模型研發(fā)上的技術(shù)實(shí)力,也顯示出AI領(lǐng)域競(jìng)爭(zhēng)的白熱化程度。
以上就是一文了解馬斯克發(fā)布Grok3大模型 多項(xiàng)測(cè)試超越DeepSeek 展現(xiàn)強(qiáng)勁競(jìng)爭(zhēng)力的詳細(xì)內(nèi)容,更多關(guān)于Grok-3在與DeepSeek的直接對(duì)比中展現(xiàn)出顯著優(yōu)勢(shì)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
你可能感興趣的文章
-
瑞波幣(XRP)價(jià)格將漲至4美元?分析師稱“最盈利階段”可能已到來
XRP價(jià)格周一表現(xiàn)堅(jiān)挺,過去24小時(shí)上漲2%,此前交易者已對(duì)上周拋售作出調(diào)整,該拋售與Ripple聯(lián)合創(chuàng)始人Chris Larsen出售500億枚XRP的行為同步發(fā)生,部分指標(biāo)表明,盡管市場(chǎng)擔(dān)…
2025-07-28 -
Pump.fun如何在12分鐘內(nèi)籌集5億美元,以及對(duì)散戶FOMO的啟示
Pump.fun首次代幣發(fā)行(ICO)提供1250億枚PUMP代幣,僅占總供應(yīng)量1萬億枚的12.5%,在不到12分鐘內(nèi)售罄,此次銷售籌集了驚人的5億美元,資金在鏈上交易和Kraken、KuCoin、Byb…
2025-07-28 -
BNB新高背后:幣安(Binance)也要借殼上市嗎?
今日,BNB突破850美元的歷史新高,BNB不斷刷新歷史新高,讓許多觀察者對(duì)此感到困惑,到底這背后是什么推動(dòng)了BNB的不斷上漲呢?市場(chǎng)普遍認(rèn)為幣安若要擁抱主流金融,必將尋求…
2025-07-28 -
Pump.fun墜落三部曲:法律圍獵、幣價(jià)腰斬、信任崩塌
2025年7月,Pump.fun宣布發(fā)行自有代幣PUMP,完全稀釋估值高達(dá)40億美元,這本該是平臺(tái)發(fā)展的里程碑,卻成為動(dòng)搖社區(qū)信任的轉(zhuǎn)折點(diǎn),據(jù)CoinMarketCap數(shù)據(jù),代幣上線數(shù)小時(shí)內(nèi)價(jià)格…
2025-07-28 -
0.4美元的Pi無人問津,3美元的Pi趨之若鶩
在加密貨幣市場(chǎng)的眾多怪象中,“0.4美元的Pi無人問津,3美元的Pi趨之若鶩”,無疑是一個(gè)值得深思的典型案例,這種價(jià)格背離理性、行為偏離常規(guī)的現(xiàn)象,背后隱藏著心理預(yù)期、…
2025-07-28 -
與肖風(fēng)再談穩(wěn)定幣深度解析:回歸技術(shù)本質(zhì),避免觀念誤區(qū)
GENIUS 法案經(jīng)由特朗普總統(tǒng)簽署正式成為法律,引發(fā)了全球范圍內(nèi)對(duì)穩(wěn)定幣的高度關(guān)注,在區(qū)塊鏈行業(yè)的一些先行者呼吁了十年,主流輿論對(duì)這一領(lǐng)域的態(tài)度反復(fù)變化之后,相關(guān)討論…
2025-07-27 -
賦能新能源產(chǎn)業(yè)的新金融?深度對(duì)比香港與美國(guó)穩(wěn)定幣法案
穩(wěn)定幣為何如此受關(guān)注?穩(wěn)定幣幣值錨定法幣或其他資產(chǎn),價(jià)格穩(wěn)定,可作為支付工具和儲(chǔ)值手段,它們僅存在于區(qū)塊鏈上,可用于Web3生態(tài)的交易支付,例如認(rèn)購(gòu)?fù)ㄗC化金融產(chǎn)品和…
2025-07-27 -
隨著穩(wěn)定幣法案獲批和RWA擴(kuò)張,華爾街涌入以太坊(ETH)
以太坊在穩(wěn)定幣、RWA和DeFi中的作用正在推動(dòng)機(jī)構(gòu)興趣,將ETH定位為儲(chǔ)備資產(chǎn)、價(jià)值儲(chǔ)存和數(shù)字石油,以太幣(ETH)在過去一周飆升23%,超過比特幣13%的漲幅和更廣泛加密貨幣市…
2025-07-27 -
美國(guó)首個(gè)穩(wěn)定幣監(jiān)管法案GENIUS Act 正式簽署 以太坊(ETH)十周年紀(jì)念 NF
特朗普簽署 GENIUS 法案,美國(guó)首個(gè)穩(wěn)定幣聯(lián)邦監(jiān)管框架落地;Abstract Chain 鏈上交易突破 1 億筆;以太坊推出十周年紀(jì)念 The Torch NFT,擬于 7 月 30 日開放鑄造,更多詳細(xì)…
2025-07-27 -
Guy Young深度揭秘Ethena的增長(zhǎng)密碼與市場(chǎng)洞察
Ethena創(chuàng)始人兼首席執(zhí)行官做客Hive Mind播客,探討加密市場(chǎng)動(dòng)態(tài),聚焦Ethena的USD資產(chǎn)(3.6億美元,現(xiàn)金占比72%),解決資金流動(dòng)問題,USD穩(wěn)定幣年化收益率18%,通過基差交易…
2025-07-27