91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學(xué)習(xí)自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了助力大模型研究,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室開源了中文圖書數(shù)據(jù)集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域。

當(dāng)前很多研究表明,高質(zhì)量數(shù)據(jù)對(duì)于訓(xùn)練大規(guī)模語言模型具有至關(guān)重要的作用。圖書中的內(nèi)容在質(zhì)量、專業(yè)水準(zhǔn)、可靠性等方面遠(yuǎn)高于互聯(lián)網(wǎng)數(shù)據(jù)。OpenAI在訓(xùn)練GPT 3時(shí),也使用了大量圖書資源。但是目前還缺乏大規(guī)模的中文圖書開放集合。此外,由于絕大多數(shù)電子書籍的保存方式為PDF格式,從其中抽取文本內(nèi)容也需要分析工具支持。復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室結(jié)合此前自主開發(fā)的相關(guān)PDF分析工具,開源了中文語料圖書集合CBook-150K。

復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室,自2019年起,自研了PDF處理工具DocAI,針對(duì)非掃描件PDF,具有能夠處理復(fù)雜格式、高效、高準(zhǔn)確率、可私有化部署等特點(diǎn)。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準(zhǔn)確率100%,結(jié)構(gòu)分析準(zhǔn)確率95%。DocAI智能文檔解析系統(tǒng)支持對(duì)DOC、PDF等常見電子文檔進(jìn)行智能解析,對(duì)文檔中的標(biāo)題、段落、表格等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析還原。該應(yīng)用場(chǎng)景具有文件類型多,格式復(fù)雜,兼容性要求高等特點(diǎn),特別是對(duì)于跨頁表格,多欄排版等復(fù)雜場(chǎng)景的支持。是目前支持段落、表格融合識(shí)別的為數(shù)不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環(huán)境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結(jié)合DocAI工具以及搜索引擎,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室從互聯(lián)網(wǎng)中篩選了大量中文圖書資源鏈接,并構(gòu)造了內(nèi)容抽取算法,助力廣大學(xué)者NLP大模型研究,同時(shí)也在實(shí)踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4218

    瀏覽量

    46187
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14674
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23282

原文標(biāo)題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    月之暗面全新開源旗艦模型Kimi K2.5上線模力方舟

    模力方舟平臺(tái)現(xiàn)已上線來自月之暗面(Moonshot AI)發(fā)布的全新開源旗艦模型Kimi K2.5。
    的頭像 發(fā)表于 01-29 10:20 ?923次閱讀
    月之暗面全新<b class='flag-5'>開源</b>旗艦<b class='flag-5'>模型</b>Kimi <b class='flag-5'>K</b>2.5上線模力方舟

    “明牌”對(duì)局,自變量開源模型超越pi0

    “明牌”對(duì)局,自變量開源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5604次閱讀
    “明牌”對(duì)局,自變量<b class='flag-5'>開源</b><b class='flag-5'>模型</b>超越pi0

    融智興科技:RFID圖書管理標(biāo)簽技術(shù)解析與智慧圖書館應(yīng)用

    融智興科技推出高頻RFID圖書管理標(biāo)簽系列產(chǎn)品。該標(biāo)簽專為圖書和檔案管理設(shè)計(jì),支持高效識(shí)別和數(shù)據(jù)處理。
    的頭像 發(fā)表于 12-18 17:23 ?973次閱讀
    融智興科技:RFID<b class='flag-5'>圖書</b>管理標(biāo)簽技術(shù)解析與智慧<b class='flag-5'>圖書</b>館應(yīng)用

    人工智能AI必備的5款開源軟件推薦!

    在技術(shù)浪潮洶涌的當(dāng)下,越來越多的企業(yè)與開發(fā)者開始意識(shí)到:“開源”已經(jīng)不只是一個(gè)口號(hào),而是創(chuàng)新的源泉。 從算法研究到智能應(yīng)用落地,無數(shù)項(xiàng)目的起點(diǎn),都是一個(gè)個(gè)免費(fèi)的開源工具。今天,我們就來盤點(diǎn)五款在智能
    的頭像 發(fā)表于 11-19 15:35 ?685次閱讀
    人工智能AI<b class='flag-5'>必備</b>的5款<b class='flag-5'>開源</b>軟件推薦!

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練框架,任何人都可以針對(duì)特定用例對(duì)現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?833次閱讀
    NVIDIA<b class='flag-5'>開源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式AI模型(Predictive AI),還支持以Transf
    的頭像 發(fā)表于 09-20 11:17 ?1253次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    開放原子開源基金會(huì)發(fā)布150余個(gè)開源項(xiàng)目應(yīng)用案例

    近日,在2025開放原子開源生態(tài)大會(huì)開幕式上,開放原子開源基金會(huì)發(fā)布了150余個(gè)開源項(xiàng)目應(yīng)用案例,涵蓋中國(guó)南方電網(wǎng)、中國(guó)移動(dòng)、京東集團(tuán)、安貞醫(yī)院、南京郵電大學(xué)、螞蟻密算等100余家單位
    的頭像 發(fā)表于 07-28 17:10 ?1186次閱讀

    萬億參數(shù)!元腦企智一體機(jī)率先支持Kimi K2大模型

    應(yīng)用大模型提供高處理性能和完善的軟件工具平臺(tái)支持。 ? Kimi K2是月之暗面推出的開源萬億參數(shù)大模型,創(chuàng)新使用了MuonClip優(yōu)化器進(jìn)行訓(xùn)練,大幅提升了
    的頭像 發(fā)表于 07-22 09:27 ?568次閱讀
    萬億參數(shù)!元腦企智一體機(jī)率先支持Kimi <b class='flag-5'>K</b>2大<b class='flag-5'>模型</b>

    瑞金醫(yī)院攜手華為開源RuiPath病理模型

    近日,由上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院(以下簡(jiǎn)稱“瑞金醫(yī)院”)主辦、華為技術(shù)有限公司協(xié)辦的“瑞金醫(yī)院RuiPath病理模型開源及成果發(fā)布會(huì)”在上海舉行。瑞金醫(yī)院聯(lián)合華為開源RuiPath病理
    的頭像 發(fā)表于 07-02 14:57 ?1006次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國(guó),深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇騰的模型推理技術(shù)。 此舉是華為踐行昇騰生態(tài)戰(zhàn)
    的頭像 發(fā)表于 06-30 11:19 ?1343次閱讀

    RFID在圖書館自動(dòng)化中的應(yīng)用

    RFID在圖書館自動(dòng)化中的優(yōu)勢(shì)高效率:RFID可以快速批量讀取圖書信息,大幅縮短借還書時(shí)間,提高圖書館管理效率。準(zhǔn)確性:RFID減少了人工操作的錯(cuò)誤率,提高了圖書管理的準(zhǔn)確性和可靠性。
    的頭像 發(fā)表于 05-27 17:15 ?720次閱讀
    RFID在<b class='flag-5'>圖書</b>館自動(dòng)化中的應(yīng)用

    ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術(shù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術(shù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 05-13 16:40 ?0次下載

    上新:小米首個(gè)推理大模型開源 馬斯克:下周推出Grok 3.5

    似乎國(guó)內(nèi)外AI競(jìng)爭(zhēng)日趨白熱化,就在阿里巴巴發(fā)布Qwen3(通義千問3)之后,引發(fā)業(yè)界廣泛關(guān)注;很多大廠在跟進(jìn),大模型不斷上新: 阿里巴巴開源新一代通義千問模型Qwen3 4月29日凌晨4點(diǎn),阿里巴巴
    的頭像 發(fā)表于 04-30 16:08 ?1346次閱讀

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)大模型
    的頭像 發(fā)表于 03-20 11:05 ?2155次閱讀