91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-11-05 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

資源整理了文本分類(lèi)、實(shí)體識(shí)別&詞性標(biāo)注、搜索匹配、推薦系統(tǒng)、指代消歧、百科數(shù)據(jù)、預(yù)訓(xùn)練詞向量or模型、中文完形填空等大量數(shù)據(jù)集,中文數(shù)據(jù)集平臺(tái)和NLP工具等。

本文內(nèi)容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分類(lèi)

新聞分類(lèi)

今日頭條中文新聞(短文本)分類(lèi)數(shù)據(jù)集:https://github.com/fateleak/toutiao-text-classfication-dataset

數(shù)據(jù)規(guī)模:共38萬(wàn)條,分布于15個(gè)分類(lèi)中。

采集時(shí)間:2018年05月。

以0.7 0.15 0.15做分割 。

清華新聞分類(lèi)語(yǔ)料:

根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過(guò)濾生成。

數(shù)據(jù)量:74萬(wàn)篇新聞文檔(2.19 GB)

小數(shù)據(jù)實(shí)驗(yàn)可以篩選類(lèi)別:體育, 財(cái)經(jīng), 房產(chǎn), 家居, 教育, 科技, 時(shí)尚, 時(shí)政, 游戲, 娛樂(lè)

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實(shí)驗(yàn):https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類(lèi)語(yǔ)料庫(kù):http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點(diǎn)/評(píng)論 傾向性分析

實(shí)體識(shí)別&詞性標(biāo)注

微博實(shí)體識(shí)別

https://github.com/hltcoe/golden-horse

boson數(shù)據(jù)

包含6種實(shí)體類(lèi)型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日?qǐng)?bào)數(shù)據(jù)集

人名、地名、組織名三種實(shí)體類(lèi)型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微軟亞洲研究院數(shù)據(jù)集

5 萬(wàn)多條中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)(包括地點(diǎn)、機(jī)構(gòu)、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四個(gè)數(shù)據(jù)集,包含繁體中文和簡(jiǎn)體中文,下面是簡(jiǎn)體中文分詞數(shù)據(jù)。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手機(jī)搜索排序

OPPO手機(jī)搜索排序query-title語(yǔ)義匹配數(shù)據(jù)集。

鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

網(wǎng)頁(yè)搜索結(jié)果評(píng)價(jià)(SogouE)

用戶查詢及相關(guān)URL列表

https://www.sogou.com/labs/resource/e.php

推薦系統(tǒng)

百科數(shù)據(jù)

維基百科

維基百科會(huì)定時(shí)將語(yǔ)料庫(kù)打包發(fā)布:

數(shù)據(jù)處理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

預(yù)訓(xùn)練:(詞向量or模型)

BERT

開(kāi)源代碼:https://github.com/google-research/bert

模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開(kāi)源代碼:https://github.com/allenai/bilm-tf

預(yù)訓(xùn)練的模型:https://allennlp.org/elmo

騰訊詞向量

騰訊AI實(shí)驗(yàn)室公開(kāi)的中文詞向量數(shù)據(jù)集包含800多萬(wàn)中文詞匯,其中每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。

下載地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百種預(yù)訓(xùn)練中文詞向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空數(shù)據(jù)集

https://github.com/ymcui/Chinese-RC-Dataset

中華古詩(shī)詞數(shù)據(jù)庫(kù)

最全中華古詩(shī)詞數(shù)據(jù)集,唐宋兩朝近一萬(wàn)四千古詩(shī)人, 接近5.5萬(wàn)首唐詩(shī)加26萬(wàn)宋詩(shī). 兩宋時(shí)期1564位詞人,21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險(xiǎn)行業(yè)語(yǔ)料庫(kù)

https://github.com/Samurais/insuranceqa-corpus-zh

漢語(yǔ)拆字字典

英文可以做char embedding,中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文數(shù)據(jù)集平臺(tái)

搜狗實(shí)驗(yàn)室

搜狗實(shí)驗(yàn)室提供了一些高質(zhì)量的中文文本數(shù)據(jù)集,時(shí)間比較早,多為2012年以前的數(shù)據(jù)。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語(yǔ)言處理與信息檢索共享平臺(tái)

http://www.nlpir.org/?action-category-catid-28

中文語(yǔ)料小數(shù)據(jù)

包含了中文命名實(shí)體識(shí)別、中文關(guān)系識(shí)別、中文閱讀理解等一些小量數(shù)據(jù)。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科數(shù)據(jù)集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標(biāo)注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分詞:https://github.com/yanyiwu/cppjieba

責(zé)任編輯:xj

原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7337

    瀏覽量

    94814
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14674
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13993
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23283

原文標(biāo)題:最全中文自然語(yǔ)言處理數(shù)據(jù)集、平臺(tái)和工具整理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    MinGW-w64工具壓縮包的下載

    (即你之前需要的MinGW免安裝包)。 信息解讀 文件屬性:這是Windows平臺(tái)的GNU編譯工具(包含mingw32-make等工具),用于編譯你的RA0E1工程; 當(dāng)前狀態(tài):下載
    發(fā)表于 02-07 04:59

    自然語(yǔ)言處理NLP的概念和工作原理

    自然語(yǔ)言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書(shū)面形式的人類(lèi)語(yǔ)言。自然語(yǔ)言
    的頭像 發(fā)表于 01-29 14:01 ?413次閱讀
    <b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b><b class='flag-5'>NLP</b>的概念和工作原理

    云知聲論文入選自然語(yǔ)言處理頂會(huì)EMNLP 2025

    近日,自然語(yǔ)言處理NLP)領(lǐng)域國(guó)際權(quán)威會(huì)議 ——2025 年計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理國(guó)際會(huì)議(
    的頭像 發(fā)表于 11-10 17:30 ?819次閱讀
    云知聲論文入選<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>頂會(huì)EMNLP 2025

    HarmonyOSAI編程自然語(yǔ)言代碼生成

    安裝CodeGenie后,在下方對(duì)話框內(nèi),輸入代碼需求描述,將根據(jù)描述智能生成代碼,生成內(nèi)容可一鍵復(fù)制或一鍵插入至編輯區(qū)當(dāng)前光標(biāo)位置。 提問(wèn)示例 使用ArkTs語(yǔ)言寫(xiě)一段代碼,在頁(yè)面中間部分
    發(fā)表于 09-05 16:58

    小白學(xué)大模型:國(guó)外主流大模型匯總

    數(shù)據(jù)科學(xué)AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的團(tuán)隊(duì)撰寫(xiě),它徹底改變了自然語(yǔ)言處理NL
    的頭像 發(fā)表于 08-27 14:06 ?989次閱讀
    小白學(xué)大模型:國(guó)外主流大模型匯總

    【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】5- 無(wú)需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開(kāi)發(fā)板上搭建 MCP 服務(wù)器,自然語(yǔ)言輕松控板

    引言:為什么需要 “自然語(yǔ)言控板”? 痛點(diǎn)引入 :嵌入式開(kāi)發(fā)中,開(kāi)發(fā)者常需通過(guò) SSH 等工具登錄開(kāi)發(fā)板,手動(dòng)輸入復(fù)雜的 Linux 命令(如ls -l、gpio readall、ifconfig等
    發(fā)表于 08-23 13:10

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具? 我使用labelimg進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)改好文件名后導(dǎo)入不進(jìn)去。一直卡在
    發(fā)表于 08-11 08:07

    云訓(xùn)練平臺(tái)數(shù)據(jù)過(guò)大無(wú)法下載數(shù)據(jù)至本地怎么解決?

    起因是現(xiàn)在平臺(tái)限制了圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)時(shí)發(fā)現(xiàn)只會(huì)跳出網(wǎng)絡(luò)異常的錯(cuò)誤,請(qǐng)問(wèn)這有什么解決辦法?
    發(fā)表于 07-22 06:03

    milvus向量數(shù)據(jù)庫(kù)的主要特性和應(yīng)用場(chǎng)景

    Milvus 是一個(gè)開(kāi)源的向量數(shù)據(jù)庫(kù),專(zhuān)門(mén)為處理和分析大規(guī)模向量數(shù)據(jù)而設(shè)計(jì)。它適用于需要高效存儲(chǔ)、檢索和管理向量數(shù)據(jù)的應(yīng)用場(chǎng)景,如機(jī)器學(xué)習(xí)、人工智能、計(jì)算機(jī)視覺(jué)和
    的頭像 發(fā)表于 07-04 11:36 ?1092次閱讀
    milvus向量<b class='flag-5'>數(shù)據(jù)</b>庫(kù)的主要特性和應(yīng)用場(chǎng)景

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1303次閱讀
    Transformer架構(gòu)概述

    各大廠商與新興企業(yè)推出的 EDA Copilot 工具

    當(dāng)前EDA(電子設(shè)計(jì)自動(dòng)化)領(lǐng)域正經(jīng)歷AI驅(qū)動(dòng)的智能化轉(zhuǎn)型,各大廠商與新興企業(yè)推出的EDA Copilot工具通過(guò)自然語(yǔ)言交互、自動(dòng)化設(shè)計(jì)優(yōu)化等技術(shù),顯著提升芯片設(shè)計(jì)效率。以下是基于最新行業(yè)
    的頭像 發(fā)表于 06-06 09:34 ?2878次閱讀

    云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

    近日,第63屆國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡(jiǎn)稱ACL)論文接收
    的頭像 發(fā)表于 05-26 14:15 ?1331次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語(yǔ)言</b><b class='flag-5'>處理</b>頂會(huì)ACL 2025

    【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】總體預(yù)覽及入門(mén)篇

    ,相關(guān)術(shù)語(yǔ)有計(jì)算機(jī)編程,數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)等概念,然后是大模型的相關(guān)概念,比如自然語(yǔ)言處理、提示詞工程、思維鏈和思維樹(shù)以及ReAct、多模態(tài)等內(nèi)容。 然后是業(yè)務(wù)流程對(duì)AiAgent的開(kāi)
    發(fā)表于 04-20 21:53

    自然語(yǔ)言處理的發(fā)展歷程和應(yīng)用場(chǎng)景

    你是否曾經(jīng)對(duì)著手機(jī)說(shuō):“嘿,Siri,今天天氣怎么樣?”或者在出國(guó)旅行時(shí),打開(kāi)翻譯軟件,對(duì)著菜單說(shuō):“請(qǐng)把這道菜翻譯成英文”。
    的頭像 發(fā)表于 04-17 11:40 ?1337次閱讀

    自然語(yǔ)言提示原型在英特爾Vision大會(huì)上首次亮相

    在英特爾Vision大會(huì)上,Network Optix首次展示了自然語(yǔ)言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動(dòng)的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?981次閱讀