91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

商湯科技SenseTime ? 來源:未知 ? 2023-08-25 13:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,AI大模型測評火熱,尤其在大語言模型領(lǐng)域,“聰明”的上限不斷刷新。

商湯與上海AI實驗室等聯(lián)合打造的大語言模型“書生·浦語”(InternLM)也表現(xiàn)出色,分別在智源FlagEval大語言模型評測8月排行榜中文通用大模型綜合性評測基準(zhǔn)SuperCLUE 7月評測榜兩項業(yè)內(nèi)權(quán)威大模型評測榜單中獲得優(yōu)異成績。 FlagEval是知名人工智能新型研發(fā)機構(gòu)北京智源人工智能研究院推出的大模型評測體系及開放平臺。FlagEval大模型評測體系構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評測框架,可視化呈現(xiàn)評測結(jié)果,總計600+評測維度,包括22個主觀、客觀評測數(shù)據(jù)集,84433道評測題目。除知名的公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval外,F(xiàn)lagEval還集成了包括智源自建的主觀評測數(shù)據(jù)集Chinese Linguistics & Cognition Challenge (CLCC),北京大學(xué)等單位共建的詞匯級別語義關(guān)系判斷、句子級別語義關(guān)系判斷、多義詞理解、修辭手法判斷評測數(shù)據(jù)集。
SuperCLUE是由創(chuàng)立于2019年的CLUE學(xué)術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評測基準(zhǔn),包含SuperCLUE-Opt客觀題測試、SuperCLUE-Open主觀題測試、SuperCLUE-LYB瑯琊榜用戶投票的匿名對戰(zhàn)測試三大基準(zhǔn)組成。為更好地反映國內(nèi)大模型與國際領(lǐng)先大模型間的差距和優(yōu)勢,SuperCLUE選取了多個國內(nèi)外有代表性的可用模型進行評測,同時由于其數(shù)據(jù)集保密性高,對大模型來說是‘閉卷考試’,減少了模型訓(xùn)練數(shù)據(jù)混入評測數(shù)據(jù)的可能性。此外,SuperCLUE還通過自動化評測方式測試不同模型效果,可一鍵對大模型進行評測,相對更客觀。 “書生·浦語”:不僅善于考試,還是開源大模型中的佼佼者

“書生·浦語”,是商湯科技、上海AI實驗室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)打造的大語言模型,具有千億參數(shù),在包含1.8萬億token的高質(zhì)量語料上訓(xùn)練而成。

今年6月,“書生·浦語”聯(lián)合團隊曾選取20余項評測進行檢驗,包括全球最具影響力的四個綜合性考試評測。結(jié)果顯示,“書生·浦語”在綜合性考試中表現(xiàn)突出,在多項中文考試中超越ChatGPT。(詳情可參考AI考生今日抵達,商湯與上海AI實驗室等發(fā)布“書生·浦語”大模型報道) 7月,“書生·浦語”正式開源70億參數(shù)的輕量級版本InternLM-7B。(https://github.com/InternLM/InternLM)

后續(xù)又推出升級版對話模型InternLM-Chat-7Bv1.1,成為首個具有代碼解釋能力的開源對話模型,能根據(jù)需要靈活調(diào)用Python解釋器等外部工具,解決復(fù)雜數(shù)學(xué)計算等任務(wù)的能力顯著提升。

此外,該模型還可通過搜索引擎獲取實時信息,提供具有時效性的回答。

在北京智源人工智能研究院FlagEval大語言模型評測體系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分別在監(jiān)督微調(diào)模型(SFT Model)榜單、基座模型(Base Model)榜單中取得第一和第二名。

“InternLM-chat-7B”還刷新中英客觀評測記錄。 「什么是“基座模型”、“有監(jiān)督微調(diào)模型”?」 基座模型(Base Model)是經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練(Pre-train)得到的,它具備一定的通用能力,比如:GPT-3。 有監(jiān)督微調(diào)模型(SFT Model)則是經(jīng)過指令微調(diào)數(shù)據(jù)(包含了各種與人類行為及情感相關(guān)的指令和任務(wù)的數(shù)據(jù)集)訓(xùn)練后得到的,具備了與人類流暢對話的能力,如:ChatGPT。 普遍的觀點認為,基座模型在很大程度上決定了微調(diào)模型的能力。 因此,F(xiàn)lagEval大語言模型評測體系針對基座模型的評測主要從“提示學(xué)習(xí)評測”和“適配評測”兩方面進行;針對有監(jiān)督微調(diào)模型的評測則從“復(fù)用針對基座模型的客觀評測” 進一步增加“引入主觀評測”。 此次兩個榜單中,“InternLM-chat-7B”和“InternLM-7B”均表現(xiàn)出優(yōu)異的綜合性能,超越備受關(guān)注的Llama2-chat-13B/7B和Llama2-13B/7B。 特別在SFT Model測試中,InternLM-chat-7B中文能力大幅領(lǐng)先同時,英文能力也與對手保持在相近水平,展現(xiàn)出更強的實用性能。 wKgZomToSjaAS-sLAAFBK8bU_fs988.jpgwKgZomToSjaAaVfdAAEPh3f12d8810.jpg ?

SuperCLUE評測從基礎(chǔ)能力、專業(yè)能力、中文特性能力三個不同維度對國內(nèi)外通用大模型產(chǎn)品進行評價,考察大模型在70余個任務(wù)上的綜合表現(xiàn)。

“書生·浦語”InternLM-chat-7B在7月公布SuperCLUE評測榜單中表現(xiàn)出色,SuperCLUE-Opt開源大模型榜單拔得頭籌。 wKgZomToSjaACTy0AAQPBYmSqG8574.png ?作為SuperCLUE綜合性三大基準(zhǔn)之一,SuperCLUE-Opt評測基準(zhǔn)每期有3700+道客觀題(選擇題),由基礎(chǔ)能力(10個子任務(wù))、中文特性能力(10個子任務(wù))、學(xué)術(shù)專業(yè)能力(50+子任務(wù))組成,采用封閉域測試方式。 相比第二名ChatGLM2-6B,InternLM-chat-7B主要在學(xué)術(shù)專業(yè)方面取得較大領(lǐng)先,同時全面領(lǐng)先于第三名Baichuan-13B-Chat。

wKgZomToSjaAH4hcAAATzh3tzFA763.gif

相關(guān)閱讀,戳這里

讓大模型“百花齊放”,商湯大裝置SenseCore提供一片沃土

《商湯發(fā)布多模態(tài)多任務(wù)通用大模型“書生2.5”》

《商湯聯(lián)合發(fā)布通才AI智能體通關(guān)<我的世界>》

wKgZomToSjaAQE8DAAC4LKEIjVg960.jpg


原文標(biāo)題:大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    610

    瀏覽量

    37568

原文標(biāo)題:大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言模型
    的頭像 發(fā)表于 02-02 16:36 ?932次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    阿布扎比TII推出Falcon-H1 Arabic,樹立全球阿拉伯AI模型新標(biāo)桿

    的應(yīng)用研究機構(gòu)——正式發(fā)布Falcon-H1 Arabic。這是一款基于混合式Mamba-Transformer架構(gòu)全新打造的大型語言模型,標(biāo)志著對以往Transformer架構(gòu)路線的根本性突破。憑借卓越
    的頭像 發(fā)表于 01-07 14:42 ?233次閱讀

    云知聲山海醫(yī)療大模型問鼎MedBench4.0三項榜首

    12月16日,中文醫(yī)療大模型權(quán)威評測平臺MedBench4.0發(fā)布最新評測結(jié)果。云知聲自主研發(fā)的“山海醫(yī)療大模型(UniGPT?Med)”展現(xiàn)出全面領(lǐng)先的技術(shù)實力,一舉斬獲醫(yī)療智能體、
    的頭像 發(fā)表于 12-29 14:35 ?3314次閱讀
    云知聲山海醫(yī)療大<b class='flag-5'>模型</b>問鼎MedBench4.0三項榜首

    中科曙光助力首個地質(zhì)大模型“坤樞”上線

    近日,首個地質(zhì)領(lǐng)域?qū)S么?b class='flag-5'>語言模型“坤樞”在河南鄭州正式上線,該大模型的部署將有助于夯實地質(zhì)產(chǎn)業(yè)數(shù)字化基礎(chǔ),在保障國家能源資源信息安全前提下,完成多項地質(zhì)相關(guān)任務(wù)。而在該
    的頭像 發(fā)表于 10-14 16:12 ?811次閱讀

    云知聲多項業(yè)務(wù)營收大漲

    依托山海大模型,云知聲不斷開拓陣地,開發(fā)了面向東盟等海外市場和國內(nèi)方言市場的語音大模型,模型顯著提升了在多語種、多方言環(huán)境下的語音識別、語義理解和高質(zhì)量語音生成能力,改善了多語言、語種
    的頭像 發(fā)表于 09-10 15:44 ?683次閱讀

    新一代超大模型訓(xùn)練引擎XTuner V1開源

    9月8日,上海人工智能實驗室(上海AI實驗室)開源書生模型新一代訓(xùn)練引擎XTuner V1。
    的頭像 發(fā)表于 09-10 10:55 ?1172次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場景的問題,筆者基于過往工程經(jīng)驗
    的頭像 發(fā)表于 09-02 13:34 ?3471次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    書生模型實戰(zhàn)營沐曦魔樂專場MeetUP精彩回顧

    近日,由書生模型社區(qū)、沐曦、魔樂社區(qū)、算豐和 DaoCloud 道客等聯(lián)合打造的「書生模型實戰(zhàn)營沐曦魔樂專場 MeetUP 暨頒獎儀式」在上海漕河涇國際孵化中心圓滿落幕。
    的頭像 發(fā)表于 08-20 11:33 ?1124次閱讀

    傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍

    佳績,分別在阿薩姆(Assamese)、曼尼普爾(Manipuri)、卡西語(Khasi)、米佐(Mizo)四個語種的機器評測中榮獲冠軍。
    的頭像 發(fā)表于 08-06 18:21 ?1242次閱讀

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級 AI。
    的頭像 發(fā)表于 06-12 15:42 ?1207次閱讀

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1321次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    深蘭科技醫(yī)療大模型榮獲MedBench評測第一

    近日,國內(nèi)權(quán)威醫(yī)療大模型評測平臺MedBench在官網(wǎng)更新了榜單,多個知名醫(yī)療AI產(chǎn)品及研究團隊入榜,其中深蘭DeepBlue-MR-v1醫(yī)療大模型以復(fù)雜醫(yī)學(xué)推理評測第一的成績領(lǐng)跑Me
    的頭像 發(fā)表于 04-30 16:08 ?908次閱讀

    在恩智FRDM-MCXN947開發(fā)板部署DeepSeek大語言模型

    還在羨慕那些動輒幾十GB顯存的AI大佬?今天,我們用一塊小小的FRDM-MCXN947開發(fā)板,就能讓你體驗到與大語言模型暢聊的快感!誰說嵌入式設(shè)備只能閃爍LED?今天我們就要讓它"口吐蓮花"!
    的頭像 發(fā)表于 04-10 17:23 ?3461次閱讀
    在恩智<b class='flag-5'>浦</b>FRDM-MCXN947開發(fā)板部署DeepSeek大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示:在語言和多模態(tài)核心能力測評中,商湯“日日新”融合大模型
    的頭像 發(fā)表于 03-18 10:35 ?1158次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8926次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析