91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮信息發(fā)布“源”Yuan-EB助力RAG檢索精度新高

浪潮AIHPC ? 來源:浪潮AIHPC ? 2024-11-26 13:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,浪潮信息發(fā)布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜單中斬獲檢索任務(wù)第一名,以78.41的平均精度刷新大模型RAG檢索最高成績,將基于元腦企智EPAI為構(gòu)建企業(yè)知識庫提供更高效、精準(zhǔn)的知識向量化能力支撐,助力用戶使用領(lǐng)先的RAG技術(shù)加速企業(yè)知識資產(chǎn)的價值釋放。

2a0c093e-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB 在HuggingFace的C-MTEB榜單中排名第一

Yuan-EB(版本號Yuan-embedding-1.0) 是專為增強(qiáng)中文文本檢索能力而設(shè)計的嵌入模型(也稱Embedding模型),在 “源2.0” 大模型的工作基礎(chǔ)上,創(chuàng)新性地采用了“源2.0-M32”大模型進(jìn)行數(shù)據(jù)重寫與合成,并通過索引技術(shù)、樣本排序等系列方法完成高質(zhì)量微調(diào)數(shù)據(jù)集構(gòu)建,能夠有效提升RAG系統(tǒng)的檢索精度。

C-MTEB是目前業(yè)內(nèi)最權(quán)威的嵌入模型測試榜單。其中,檢索任務(wù)(Retrieval)是檢索增強(qiáng)生成(RAG)場景下最為重要、應(yīng)用最廣泛的任務(wù)能力,考察的是Embedding模型從大量的數(shù)據(jù)集中找到并返回與給定查詢最相關(guān)或最匹配的信息的過程?!霸础盰uan-EB基于該任務(wù)提供的醫(yī)療、新聞、電商、娛樂等8個中文文本數(shù)據(jù)集,實現(xiàn)了業(yè)界領(lǐng)先的海量文本檢索精度。

2a18dba0-a659-11ef-93f3-92fbcf53809c.png

C-MTEB榜單Retrieval任務(wù)提供8個測試數(shù)據(jù)集

“源” Yuan-EB 助力RAG檢索精度新高

嵌入模型在RAG流程中扮演著關(guān)鍵角色,它能夠?qū)?fù)雜的高維數(shù)據(jù)(例如文本、圖像或音頻)轉(zhuǎn)換為機(jī)器可理解的向量形式,直接決定了RAG檢索的精準(zhǔn)性和效率。

2a3da4ee-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB通過數(shù)據(jù)準(zhǔn)備與模型微調(diào)兩個方面的技術(shù)創(chuàng)新,實現(xiàn)了模型精度的大幅提升:

■ 在數(shù)據(jù)方面,基于“源2.0”微調(diào)階段的問答數(shù)據(jù)進(jìn)行清洗與篩選,構(gòu)建問題(query)與文本(corpus)數(shù)據(jù)集;使用“源2.0-M32”對C-MTEB 訓(xùn)練數(shù)據(jù)進(jìn)行重寫與合成,通過索引技術(shù)與排序模型進(jìn)行高效的難負(fù)樣本提取,完成大規(guī)模難負(fù)例樣本挖掘,形成高質(zhì)量微調(diào)數(shù)據(jù)集;

■ 在微調(diào)方面,通過兩個階段的領(lǐng)先微調(diào)方法實現(xiàn)模型能力提升。第一階段,使用各個領(lǐng)域(醫(yī)療、新聞、長文本、娛樂等方向)的大規(guī)模數(shù)據(jù)進(jìn)行對比學(xué)習(xí)訓(xùn)練;第二階段,采用“源2.0-M32”生成的合成數(shù)據(jù)進(jìn)一步微調(diào),并使用MRL方法完成“源”Yuan-EB訓(xùn)練;

“源”Yuan-EB為用戶提供了大模型企業(yè)知識庫應(yīng)用開發(fā)的最優(yōu)模型選擇,能夠在 RAG流程的多個方面起到顯著的精度提升,包括信息檢索的準(zhǔn)確性、處理大規(guī)模數(shù)據(jù)的效率、消除語義歧義、降低計算成本、增強(qiáng)對長文檔的處理能力以及模型魯棒性等,最大化提升RAG流程的整體性能和應(yīng)用效果。

元腦企智EPAI集成“源”Yuan-EB,加速知識庫構(gòu)建與性能提升

目前,“源”Yuan-EB已經(jīng)在開源社區(qū)和企業(yè)大模型開發(fā)平臺元腦企智EPAI中全面開放下載。用戶可以在元腦企智EPAI平臺中快速使用“源”Yuan-EB,并結(jié)合EPAI自研的多階段RAG技術(shù),零代碼、低成本地基于企業(yè)數(shù)據(jù)構(gòu)建大模型知識庫應(yīng)用。

企業(yè)大模型開發(fā)平臺“元腦企智”EPAI(Enterprise Platform of AI),是浪潮信息為企業(yè)AI大模型落地應(yīng)用打造的高效、易用、安全的端到端開發(fā)平臺,提供數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、知識檢索、應(yīng)用框架等系列工具,支持調(diào)度多元算力和多模算法,幫助企業(yè)高效開發(fā)部署生成式AI應(yīng)用、打造智能生產(chǎn)力。

元腦企智EPAI已經(jīng)支持超過13種類型文檔的信息識別與提取,結(jié)合創(chuàng)新的多級混合檢索策略,有效提升元腦企智EPAI在管理、解析、檢索知識庫與生成內(nèi)容方面的最終效果,幫助企業(yè)用戶實現(xiàn)基于私有數(shù)據(jù)、行業(yè)數(shù)據(jù)下的精準(zhǔn)檢索、精準(zhǔn)問答,確保專業(yè)場景下大模型生成內(nèi)容的準(zhǔn)確性和可靠性,加速大模型創(chuàng)新力釋放。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 浪潮
    +關(guān)注

    關(guān)注

    1

    文章

    476

    瀏覽量

    25423
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4207

    瀏覽量

    46152
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5189

原文標(biāo)題:浪潮信息發(fā)布“源”Yuan-EB,刷新大模型RAG檢索精度紀(jì)錄!

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RAG(檢索增強(qiáng)生成)原理與實踐

    思想 RAG的核心思想非常直觀:在生成答案之前,先從知識庫中檢索相關(guān)信息,然后將這些信息作為上下文提供給大語言模型,讓模型基于這些\"參考資料\"來生成更準(zhǔn)確的回答。 這就像是讓AI在
    發(fā)表于 02-11 12:46

    Elektrobit EB civion平臺助力SDV 2.0智能座艙開發(fā)

    基于此,Elektrobit推出EB civion——一套專為SDV 2.0設(shè)計的智能座艙工程化工具鏈與開發(fā)平臺,助力行業(yè)實現(xiàn)從研發(fā)到量產(chǎn)的高效一體化轉(zhuǎn)型。
    的頭像 發(fā)表于 01-26 10:05 ?1943次閱讀

    發(fā)布元服務(wù)填寫審核信息與聯(lián)系方式

    填寫審核信息 登錄AppGallery Connect,點擊“APP與元服務(wù)”。 選擇要發(fā)布的元服務(wù)。 左側(cè)導(dǎo)航選擇“應(yīng)用上架 > 版本信息”下待發(fā)布的版本。 進(jìn)入“應(yīng)用審核
    發(fā)表于 12-01 14:30

    RAG實踐:一文掌握大模型RAG過程

    RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成), 一種AI框架,將傳統(tǒng)的信息檢索系統(tǒng)(例如數(shù)據(jù)庫)的優(yōu)勢與生成式大語言模型(LLM)的功能結(jié)合在一
    的頭像 發(fā)表于 10-27 18:23 ?1565次閱讀
    <b class='flag-5'>RAG</b>實踐:一文掌握大模型<b class='flag-5'>RAG</b>過程

    浪潮信息發(fā)布&quot;元腦SD200&quot;超節(jié)點,面向萬億參數(shù)大模型創(chuàng)新設(shè)計

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息發(fā)布面向萬億參數(shù)大模型的超節(jié)點AI服務(wù)器"元腦SD200"。該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語義通信架構(gòu),以開放系統(tǒng)設(shè)計向上
    的頭像 發(fā)表于 08-08 22:17 ?678次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>&quot;元腦SD200&quot;超節(jié)點,面向萬億參數(shù)大模型創(chuàng)新設(shè)計

    上海貝嶺發(fā)布第三代高精度基準(zhǔn)電壓

    BLR3XX系列是上海貝嶺推出的第三代高精度基準(zhǔn)電壓。具有高輸出精度、低功耗、低噪聲以及低溫度系數(shù)的特性。
    的頭像 發(fā)表于 07-10 17:48 ?1193次閱讀
    上海貝嶺<b class='flag-5'>發(fā)布</b>第三代高<b class='flag-5'>精度</b>基準(zhǔn)電壓<b class='flag-5'>源</b>

    飛利信與浪潮信息達(dá)成戰(zhàn)略合作

    近日,2025年浪潮信息北京ISP戰(zhàn)略伙伴簽約授牌儀式成功舉辦。浪潮信息與北京飛利信電子技術(shù)有限公司等22家戰(zhàn)略合作伙伴達(dá)成簽約,其中將面向北京人工智能應(yīng)用大市場,在產(chǎn)品技術(shù)共創(chuàng)、行業(yè)場景深化及區(qū)域
    的頭像 發(fā)表于 06-24 17:37 ?1111次閱讀

    使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    軟通動力發(fā)布智慧園區(qū)RAG解決方案

    近日,鯤鵬昇騰開發(fā)者大會2025(KADC 2025)在北京正式啟幕。軟通動力作為鯤鵬路線堅定的擁護(hù)者與實踐者,受邀出席大會,正式發(fā)布軟通動力智慧園區(qū)RAG(Retrieval Augmented Generation 檢索增強(qiáng)
    的頭像 發(fā)表于 05-29 10:00 ?890次閱讀
    軟通動力<b class='flag-5'>發(fā)布</b>智慧園區(qū)<b class='flag-5'>RAG</b>解決方案

    如何在基于Arm Neoverse平臺的Google Axion處理器上構(gòu)建RAG應(yīng)用

    你是否好奇如何防止人工智能 (AI) 聊天機(jī)器人給出過時或不準(zhǔn)確的答案?檢索增強(qiáng)生成 (Retrieval-Augmented Generation, RAG) 技術(shù)提供了一種強(qiáng)大的解決方案,能夠顯著提升答案的準(zhǔn)確性和相關(guān)性。
    的頭像 發(fā)表于 04-28 14:34 ?1092次閱讀
    如何在基于Arm Neoverse平臺的Google Axion處理器上構(gòu)建<b class='flag-5'>RAG</b>應(yīng)用

    DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應(yīng)用開發(fā)效率再提升

    ) 模型微調(diào)(Fine-tuning):針對特定領(lǐng)域優(yōu)化生成模型的表現(xiàn)。RAG支持實時更新官方數(shù)據(jù),避免傳統(tǒng)微調(diào)模型因數(shù)據(jù)滯后產(chǎn)生的幻象。 圖1:DeepSeek RAG檢索流程 另
    發(fā)表于 04-18 14:43

    納芯微發(fā)布新高精度雙通道電流檢測放大器NSCSA285系列

    近日,納芯微發(fā)布新高精度雙通道電流檢測放大器NSCSA285系列。NSCSA285系列憑借高達(dá)76V的寬共模電壓范圍、±12μV的超低輸入偏移電壓及140dB的直流共模抑制比(CMRR),具備
    的頭像 發(fā)表于 04-12 14:39 ?1407次閱讀
    納芯微<b class='flag-5'>發(fā)布</b>全<b class='flag-5'>新高精度</b>雙通道電流檢測放大器NSCSA285系列

    筑基&quot;AI+人才&quot;培養(yǎng),浪潮信息攜手元腦伙伴拓爾思推出智慧教育新平臺

    北京2025年3月22日?/美通社/ -- 近期,元腦生態(tài)伙伴拓爾思信息技術(shù)股份有限公司(以下簡稱:拓爾思)攜手浪潮信息,聯(lián)合為高校AI人才培養(yǎng)推出"AI創(chuàng)新培養(yǎng)綜合服務(wù)平臺",基于該平臺實現(xiàn)實訓(xùn)
    的頭像 發(fā)表于 03-27 16:56 ?829次閱讀
    筑基&quot;AI+人才&quot;培養(yǎng),<b class='flag-5'>浪潮信息</b>攜手元腦伙伴拓爾思推出智慧教育新平臺

    天瞳威視與浪潮信息達(dá)成戰(zhàn)略合作,推進(jìn)高階智駕車載計算系統(tǒng)創(chuàng)新

    北京2025年3月22日?/美通社/ -- 近日,蘇州天瞳威視電子科技有限公司與浪潮信息旗下蘇州元腦智能科技有限公司達(dá)成戰(zhàn)略合作協(xié)議。此次合作依托浪潮信息提供的車載算力平臺硬件系統(tǒng)、底層軟件環(huán)境
    的頭像 發(fā)表于 03-27 16:55 ?641次閱讀
    天瞳威視與<b class='flag-5'>浪潮信息</b>達(dá)成戰(zhàn)略合作,推進(jìn)高階智駕車載計算系統(tǒng)創(chuàng)新

    浪潮信息:元腦企智DeepSeek一體機(jī)將舉辦生態(tài)伙伴推介體驗會

    ?3月11日,浪潮信息將面向全國元腦生態(tài)伙伴舉辦"元腦企智DeepSeek一體機(jī)生態(tài)伙伴推介體驗會"?;顒蝇F(xiàn)場,伙伴可深入了解元腦企智DeepSeek一體機(jī)的最新功能亮點,上手實操體驗深度優(yōu)化的元腦
    的頭像 發(fā)表于 03-09 14:20 ?599次閱讀
    <b class='flag-5'>浪潮信息</b>:元腦企智DeepSeek一體機(jī)將舉辦生態(tài)伙伴推介體驗會