Claude-3力壓GPT-4榮膺最佳大語(yǔ)言模型

近日，LMSYS Org發(fā)布最新的基準(zhǔn)測(cè)試報(bào)告，顯示Cordulas公司的Claude-3在平臺(tái)大語(yǔ)言模型中的得分略勝OpenAI的GPT-4。

值得注意的是，LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡內(nèi)基梅隆大學(xué)共同發(fā)起設(shè)立的研究組織。

日前，這家機(jī)構(gòu)推出了一項(xiàng)名為Chatbot Arena的服務(wù)，這是針對(duì)大語(yǔ)言模型（LLM）進(jìn)行評(píng)估的基準(zhǔn)平臺(tái)，該平臺(tái)采用眾包形式對(duì)大型語(yǔ)言模型進(jìn)行匿名隨機(jī)競(jìng)爭(zhēng)打分，參考源于競(jìng)技比賽領(lǐng)域中廣泛應(yīng)用的Elo評(píng)分體系。

分?jǐn)?shù)評(píng)價(jià)結(jié)果主要取決于用戶的投票意向，每次由系統(tǒng)隨機(jī)挑選兩個(gè)不同的大語(yǔ)言模型參與與用戶的對(duì)話，同時(shí)，為保障客觀性，匿名選擇哪個(gè)版本的大模型表現(xiàn)優(yōu)秀至關(guān)重要。

自去年啟動(dòng)以來(lái)，GPT-4一直占據(jù)評(píng)測(cè)榜單之首。然而，昨日，由Anthropos推出的Claude 3 Opus以微弱優(yōu)勢(shì)戰(zhàn)勝了GPT-4，將OpenAI的LLM擠出了首位。

考慮到細(xì)微差距及誤差風(fēng)險(xiǎn)，委員會(huì)決定授予Claude 3與GPT-4并列第一的榮譽(yù)，GPT-4的另外一個(gè)預(yù)設(shè)版也被列入并列第一的行列。此外，更引人注目的是，Claude 3 Haiku成功躋身前十名。Haiku是Anthropos針對(duì)本地規(guī)模的新型模型，功能類似谷歌的GeminiNano。

相較Opus參數(shù)高達(dá)幾萬(wàn)億，Haiku體型更為緊湊，運(yùn)行速度更快。據(jù)LMSYS數(shù)據(jù)顯示，Haikn在評(píng)測(cè)成績(jī)中排名第七，與GPT-4表現(xiàn)不遑多讓。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111557
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
572

瀏覽量
11324
GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
16895

評(píng)論

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 對(duì)比各家主流MCU指標(biāo)，國(guó)產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號(hào)和數(shù)字信號(hào)的區(qū)別和特點(diǎn)

New 方正電機(jī)成為小鵬汽車驅(qū)動(dòng)電機(jī)供應(yīng)商，總需求量預(yù)計(jì)達(dá)35萬(wàn)臺(tái)
New 雷諾-吉利動(dòng)力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

全球高端第一的答卷：追覓掃地機(jī)的全球化啟示

腦極體
14小時(shí)前

1307 閱讀

時(shí)鐘芯片的基本原理及行業(yè)應(yīng)用

賽思電子
15小時(shí)前

705 閱讀

安霸AI SoC放大招：深度適配OpenClaw，驅(qū)動(dòng)機(jī)器人自主進(jìn)化

章鷹觀察
15小時(shí)前

2986 閱讀

開(kāi)關(guān)電源中光耦合器的正確偏置和補(bǔ)償網(wǎng)絡(luò)設(shè)計(jì)

ADI智庫(kù)
21小時(shí)前

1117 閱讀

量產(chǎn)定點(diǎn)超300萬(wàn)套！地平線攜手鑒智機(jī)器人，加速推進(jìn)全民智駕時(shí)代！

章鷹觀察
1天前

2265 閱讀

穩(wěn)壓電源的散熱設(shè)計(jì)

fejlkel
771

5積分

48下載

概化理論的方差分量變異量的估計(jì)

tulin
373 KB

5積分

47下載

幾種常見(jiàn)開(kāi)關(guān)電源電路圖

o_dream
0.22 MB

免費(fèi)

98下載

openharmony第三方組件適配移植的SVGA動(dòng)畫(huà)渲染庫(kù)

姚小熊27
2.87 MB

免費(fèi)

15下載

STM32F103C8T6最小系統(tǒng)開(kāi)源

李皓圳
0.02 MB

5積分

42下載

【米爾全志T153開(kāi)發(fā)板評(píng)測(cè)】移植speex實(shí)現(xiàn)回聲消除和語(yǔ)音活動(dòng)檢測(cè)等功能

jf_1137202360
1天前

91 閱讀

【飛凌嵌入式RV1126B開(kāi)發(fā)板試用體驗(yàn)】+ 2. 編譯與運(yùn)行

slmxiaodai_163
1天前

378 閱讀

【米爾全志T153開(kāi)發(fā)板評(píng)測(cè)】串口網(wǎng)口登錄與C開(kāi)發(fā)環(huán)境搭建

jf_1137202360
2天前

380 閱讀

【瑞薩AI挑戰(zhàn)賽】在RA8P1上部署CFAIR-10分類模型

xusiwei1236
3天前

475 閱讀

昉·星光開(kāi)發(fā)板火災(zāi)報(bào)警裝置

mede1001
2天前

739 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

Claude-3力壓GPT-4榮膺最佳大語(yǔ)言模型

評(píng)論