亚洲视频社区久久,国产黄色视频免费,久久91福利色亚洲色图

OpenAI Vs Google

目前大模型 top2 應(yīng)該就是 OpenAI 的 GPT-4，以及谷歌的PALM-2。這兩家公司早已布局，而且技術(shù)實(shí)力雄厚。國(guó)內(nèi)大模型和 GPT-4 相比，還是有比較大的差距。

但是國(guó)內(nèi)的勢(shì)頭目前不錯(cuò)，百家齊鳴，還沒(méi)有一家有絕對(duì)的優(yōu)勢(shì)。

讓人頭暈的排名

之前有媒體給出了目前國(guó)內(nèi)Top-5的大模型公司，分別是：百度的文心一言、阿里的通義千問(wèn)、騰訊的混元、華為的盤古以及360的智腦。

而最近，中文通用大模型基準(zhǔn)（SuperCLUE）評(píng)測(cè)公布了最新結(jié)果，GPT-4 遙遙領(lǐng)先，而國(guó)內(nèi)成績(jī)最好的是科大訊飛的星火認(rèn)知大模型。這里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分還低，實(shí)在難以置信。

但是我又仔細(xì)看了一下這個(gè)評(píng)測(cè)。媽呀，評(píng)測(cè)集是SuperCLUE，而非SuperGLUE。

眾所周知，在國(guó)際NLP領(lǐng)域，有大名鼎鼎的數(shù)據(jù)集 GLUE 和 SuperGLUE，非常權(quán)威，OpenAI、谷歌等的大模型都在上面評(píng)測(cè)，極大推動(dòng)了 NLP 領(lǐng)域的發(fā)展。

這次這份 SuperCLUE 評(píng)測(cè)的發(fā)起方為 Chinese GLUE 組織（簡(jiǎn)稱 CLUE），CLUE 是仿照 GLUE由國(guó)內(nèi)民間組織的評(píng)測(cè)，權(quán)威度和影響力與 GLUE 相比差很遠(yuǎn)，其微信賬號(hào)主體屬性為個(gè)人。但這也迷惑了不少圈內(nèi)人，GLUE和 CLUE 分不清楚，堪稱李逵和李鬼。

還有一點(diǎn)存疑，評(píng)測(cè)榜單發(fā)布當(dāng)天5月9日，其官網(wǎng)顯示信息，中文基準(zhǔn)測(cè)評(píng)成員顧問(wèn)中排名第一的是崔一鳴，身份為學(xué)術(shù)顧問(wèn)委員會(huì)主任，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）資深級(jí)研究員。而5月10日，官網(wǎng)已刪除此條顧問(wèn)的信息。

而001號(hào)創(chuàng)始會(huì)員徐亮，是會(huì)長(zhǎng)，相當(dāng)于這個(gè)榜單的實(shí)際負(fù)責(zé)人。昵稱 brightmart，中文任務(wù)基準(zhǔn)測(cè)評(píng)發(fā)起人。多個(gè)預(yù)訓(xùn)練模型中文版、文本分類和數(shù)據(jù)集開(kāi)源項(xiàng)目作者。

徐亮還有另一個(gè)身份，在5月9日官網(wǎng)中顯示，他是杭州實(shí)在智能算法專家，也就是元語(yǔ)智能的創(chuàng)始人，曾在2月份發(fā)布自稱“國(guó)內(nèi)首個(gè)功能對(duì)話大模型ChatYuan”，不僅無(wú)法測(cè)試，發(fā)布幾天即被監(jiān)管叫停。4月，又被報(bào)道套殼推出開(kāi)源組件。有分析人士認(rèn)為，不排除創(chuàng)業(yè)公司有融資壓力，蹭熱度吸引投資人關(guān)注。

該 SpuerClue 榜單發(fā)起方，001號(hào)顧問(wèn)是訊飛身份背景、001號(hào)基準(zhǔn)發(fā)起人是創(chuàng)業(yè)公司創(chuàng)始人。在榜單發(fā)布后，擔(dān)心行業(yè)質(zhì)疑其公平、公正，相關(guān)信息還被刪除。這就有點(diǎn)不言而喻了。

僅用100道評(píng)測(cè)題目就出來(lái)了一份“權(quán)威報(bào)告”

最后來(lái)說(shuō)下這個(gè)榜單本身，業(yè)內(nèi)人士一眼就可以看出來(lái)，評(píng)測(cè)的很不合理，首先，沒(méi)有公布評(píng)估數(shù)據(jù)，以及具體的評(píng)估方式。同時(shí)從它的公開(kāi)表述，可推斷總共題目就 100 道題目。這個(gè)題目量少到難以置信。專業(yè)人士可能有參與過(guò)，像國(guó)際權(quán)威 SuperGlue 榜單，題目一般都得有 2 萬(wàn)多道，離權(quán)威可是差了幾萬(wàn)倍。況且，它的評(píng)測(cè)得分榜首都是人類，那這個(gè)評(píng)分的基準(zhǔn)到底是什么？是否有很多主觀性因素在里面？是否某些大模型提前在這個(gè)數(shù)據(jù)集上已經(jīng)訓(xùn)練過(guò)？

任務(wù)設(shè)計(jì)太武斷，所謂“通用”基準(zhǔn)，是用以測(cè)試通用的人工認(rèn)知能力的，那么我們自然希望，評(píng)測(cè)任務(wù)是參考了模型想要模擬的認(rèn)知能力及相關(guān)理論，系統(tǒng)化地選擇出來(lái)的。而實(shí)際上，我們觀察到的則是，基準(zhǔn)的作者們?cè)谶x擇任務(wù)的時(shí)候，更像是圖方便、省事。以往，CLUE 中存在著部分?jǐn)?shù)據(jù)集，一味考慮任務(wù)的復(fù)雜性，卻在最起碼的分布邊界劃分上（如NER各個(gè)類別的邊界，如場(chǎng)所、景點(diǎn)類，組織機(jī)構(gòu)及其子類），模糊不清，且數(shù)據(jù)的一致性無(wú)法保證。

要么別比，要比就來(lái)點(diǎn)正規(guī)的比賽。自己出題自己考，說(shuō)不準(zhǔn)還搶跑，自己還是評(píng)委，那這是欺不負(fù)了解真相的吃瓜群眾。投機(jī)取巧，終皆散去?？嗑殐?nèi)功，才是王道。

國(guó)內(nèi)大模型排名（僅供參考）

拋開(kāi)這些，從模型規(guī)模、模型效果、市場(chǎng)占有率等多個(gè)角度，百度的文心一言、華為的盤古、阿里的通義千問(wèn)、騰訊的混元排在前四，應(yīng)該是比較合理的，至于后面的排名，就不大能保證了。不過(guò)下面的排名也可以參考一下：

下面是一份完整的名單：

按發(fā)布時(shí)間排序：

百度：文心一言

作為國(guó)內(nèi)最早發(fā)布的大模型，百度的文心一言在今年3月16號(hào)就發(fā)布了，隨后經(jīng)過(guò)了多個(gè)版本的迭代。目前已經(jīng)有上千家企業(yè)接入。文心一言支持圖片、語(yǔ)音等多模態(tài)。

3月16日，百度在全球大廠中率先發(fā)布對(duì)標(biāo) ChatGPT 的大模型產(chǎn)品文心一言。據(jù)了解，文心一言內(nèi)測(cè)一個(gè)多月，就完成了4次大的技術(shù)升級(jí)，大模型推理性能提升近10倍。

李彥宏在5月4日百度內(nèi)部活動(dòng)中表示，百度之所以能夠在Google、Meta、Amazon等大廠之前率先發(fā)布生成式大模型產(chǎn)品，是因?yàn)榘俣仍谛酒?、框架、模型、?yīng)用等四個(gè)層面做到全棧布局、層層領(lǐng)先。

360：360智腦

百度是國(guó)內(nèi)搜索市場(chǎng)排名第一公司，而排名第二就是360。

大模型依靠的算力、數(shù)據(jù)、算法、場(chǎng)景，這兩家公司都具備，這也是搜索公司的優(yōu)勢(shì)，有業(yè)務(wù)和數(shù)據(jù)支撐大模型研發(fā)和落地。

5月16日，360集團(tuán)和智譜AI宣布達(dá)成戰(zhàn)略合作，雙方共同研發(fā)的千億級(jí)大模型“360GLM”已具備新一代認(rèn)知智能通用模型水準(zhǔn)。

而在今天的世界智能大會(huì)上，周鴻祎展示了“360智腦”的多輪對(duì)話和“360鴻圖”的AI生圖兩個(gè)能力。

就像谷歌和微軟，一個(gè)擁有谷歌搜索，一個(gè)擁有必應(yīng)。國(guó)內(nèi)的百度和360，一個(gè)擁有百度搜索，一個(gè)擁有360搜索。

搜索公司應(yīng)該是這場(chǎng)大模型爭(zhēng)霸賽最后的贏家。（只是個(gè)人看法）

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴