91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:python遇見(jiàn)NLP ? 作者:python遇見(jiàn)NLP ? 2020-10-10 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在Github上搜索整理了一波關(guān)于醫(yī)療NLP的數(shù)據(jù)集:

1

中文評(píng)測(cè)數(shù)據(jù)集

1. Yidu-S4K:醫(yī)渡云結(jié)構(gòu)化4K數(shù)據(jù)集

2.瑞金醫(yī)院糖尿病數(shù)據(jù)集

3.Yidu-N7K:醫(yī)渡云標(biāo)準(zhǔn)化7K數(shù)據(jù)集

4.中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集

5.平安醫(yī)療科技疾病問(wèn)答遷移學(xué)習(xí)比賽

6.天池新冠肺炎問(wèn)句匹配比賽

7.中文醫(yī)患問(wèn)答對(duì)話數(shù)據(jù)

8.中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)

9.CHIP2020各項(xiàng)評(píng)測(cè)已開(kāi)放

10.醫(yī)學(xué)數(shù)據(jù)挖掘與算法評(píng)測(cè)大賽

中文醫(yī)學(xué)知識(shí)圖譜

CMeKG

英文數(shù)據(jù)集

PubMedQA: A Dataset for Biomedical Research Question Answering

中文醫(yī)療領(lǐng)域語(yǔ)料

醫(yī)學(xué)教材 培訓(xùn)考試

哈工大《大詞林》開(kāi)放75萬(wàn)核心實(shí)體詞及相關(guān)概念、關(guān)系列表(包含中藥/醫(yī)院/生物 類別)

醫(yī)學(xué)embedding

開(kāi)源英文醫(yī)學(xué)embedding

鏈接:https://github.com/lrs1353281004/Chinese_medical_NLP

2

醫(yī)療行業(yè)專業(yè)詞匯語(yǔ)料

說(shuō)明 數(shù)量 文件
口腔科病歷詞匯 11,170 stomatology.txt
國(guó)際疾病分類ICD全庫(kù) 54,304 ICD.csv
疾病診斷編碼庫(kù)ICD-10 12109 ICD-code-10.csv
醫(yī)院固定資產(chǎn)詞匯 471 properties.txt
藥品名稱詞匯 37,308 medicine.txt
電子病歷常見(jiàn)詞匯 1985 emr.txt

鏈接:https://github.com/xtea/chinese_medical_words

3

中文醫(yī)學(xué)NLP公開(kāi)資源整理:術(shù)語(yǔ)集/語(yǔ)料庫(kù)/詞向量/預(yù)訓(xùn)練模型/知識(shí)圖譜/命名實(shí)體識(shí)別/QA/信息抽取/etc

術(shù)語(yǔ)集/語(yǔ)料庫(kù)

medical-news中文醫(yī)學(xué)新聞爬蟲(chóng)

medical-books中文LaTex開(kāi)源醫(yī)學(xué)書(shū)籍

THUOCL清華大學(xué)thunlp組醫(yī)學(xué)詞匯

ICD-10-CNICD-10中文對(duì)應(yīng)

OMAHA七巧板醫(yī)學(xué)術(shù)語(yǔ)集樣例數(shù)據(jù)

中文糖尿病標(biāo)注數(shù)據(jù)集包含實(shí)體標(biāo)注和關(guān)系標(biāo)注

詞向量/預(yù)訓(xùn)練模型

ChineseEHRBert 中文電子病歷預(yù)訓(xùn)練Bert;用Bert測(cè)試命名實(shí)體識(shí)別,問(wèn)答模型,關(guān)系提取任務(wù)

分詞

PKUSEGPKUSEG分詞工具,模型支持選擇醫(yī)學(xué)

知識(shí)圖譜 / 關(guān)系提取

cMeKGChinese Medical Knowledge Graph

瑞金醫(yī)院人工智能輔助構(gòu)建知識(shí)圖譜大賽糖尿病相關(guān)的學(xué)術(shù)論文以及糖尿病臨床指南的實(shí)體標(biāo)注和抽取實(shí)體關(guān)系任務(wù)

OMAHA知識(shí)圖譜(藥品適應(yīng)癥)開(kāi)放醫(yī)療與健康聯(lián)盟(Open Medical and Healthcare Alliance,OMAHA)構(gòu)建的藥品與藥品適應(yīng)證的知識(shí)圖譜數(shù)據(jù)

醫(yī)療知識(shí)圖譜數(shù)據(jù)醫(yī)療知識(shí)圖譜數(shù)據(jù)(ownthink)

病人事件圖譜數(shù)據(jù)集病人事件圖譜是一種新的基于RDF的醫(yī)療觀察性數(shù)據(jù)表示模型,可以清晰地表示臨床檢查、診斷、治療等多種事件類型以及事件的時(shí)序關(guān)系。使用三家上海三甲醫(yī)院的電子病歷數(shù)據(jù),構(gòu)建了包括3個(gè)專科、173395個(gè)醫(yī)療事件、501335個(gè)事件時(shí)序關(guān)系以及與5313個(gè)知識(shí)庫(kù)概念鏈接的醫(yī)療數(shù)據(jù)集。

中文癥狀庫(kù)這是一個(gè)包含癥狀實(shí)體和癥狀相關(guān)三元組的數(shù)據(jù)集。中文癥狀庫(kù)的數(shù)據(jù)來(lái)自8個(gè)主流的健康咨詢網(wǎng)站、3個(gè)中文百科網(wǎng)站和電子病歷。它還包含了中文癥狀與UMLS中概念的鏈接結(jié)果。

中醫(yī)醫(yī)案知識(shí)圖譜從醫(yī)案中抽取臨床知識(shí)構(gòu)建知識(shí)圖譜,幫助用戶了解中醫(yī)特色療法,以及疾病(如“慢性胃炎”)的臨床表現(xiàn)、相關(guān)療法、相關(guān)養(yǎng)生保健方法等

herbnet 面向中藥研究,根據(jù)中藥領(lǐng)域模型的特點(diǎn),構(gòu)建了一個(gè)包括中醫(yī)疾病,方劑,中藥, 中藥化學(xué)成分,藥理作用,中藥實(shí)驗(yàn),化學(xué)實(shí)驗(yàn)方法在內(nèi)的中藥本體。進(jìn)而,基于本體實(shí)現(xiàn)了一系列數(shù)據(jù)庫(kù)的集成,從而構(gòu)建了一個(gè)中藥知識(shí)圖譜。

CHIP2020中文醫(yī)學(xué)文本實(shí)體關(guān)系抽取

命名實(shí)體識(shí)別

CCKS2017面向中文電子病歷的醫(yī)療實(shí)體識(shí)別及屬性抽取數(shù)據(jù)集

CCKS2018面向中文電子病歷的醫(yī)療實(shí)體識(shí)別及屬性抽取數(shù)據(jù)集

CCKS2019數(shù)據(jù)下載面向中文電子病歷的醫(yī)療實(shí)體識(shí)別及屬性抽取數(shù)據(jù)集

CHIP2020中文醫(yī)學(xué)文本命名實(shí)體識(shí)別

CHIP2020中藥說(shuō)明書(shū)實(shí)體識(shí)別

QA

CCIR2019CCIR 2019 基于電子病歷的數(shù)據(jù)查詢類問(wèn)答

cMedQA中文醫(yī)學(xué)QA數(shù)據(jù)集

cMedQA2中文醫(yī)學(xué)QA數(shù)據(jù)集

CMID中文醫(yī)學(xué)QA意圖理解數(shù)據(jù)集

KGQA基于醫(yī)藥知識(shí)圖譜的智能問(wèn)答系統(tǒng)

chatbot-base-on-Knowledge-Graph使用深度學(xué)習(xí)方法解析問(wèn)題 知識(shí)圖譜存儲(chǔ) 查詢知識(shí)點(diǎn) 基于醫(yī)療垂直領(lǐng)域的對(duì)話系統(tǒng)

中文醫(yī)療對(duì)話數(shù)據(jù)集Chinese medical dialogue data 中文醫(yī)療對(duì)話數(shù)據(jù)集

webMedQAwebMedQA

MedDialogThe MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

CHIP2020中醫(yī)文獻(xiàn)問(wèn)題生成

術(shù)語(yǔ)標(biāo)準(zhǔn)化

CHIP2019臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù):醫(yī)渡云標(biāo)準(zhǔn)化7K數(shù)據(jù)集

CHIP2020臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)

相似句對(duì)判斷

“公益AI之星”挑戰(zhàn)賽-新冠疫情相似句對(duì)判定大賽比賽整理近萬(wàn)條真實(shí)語(yǔ)境下疫情相關(guān)的肺炎、支原體肺炎、支氣管炎、上呼吸道感染、肺結(jié)核、哮喘、胸膜炎、肺氣腫、感冒、咳血等患者提問(wèn)句對(duì),要求選手通過(guò)自然語(yǔ)言處理技術(shù)識(shí)別相似的患者問(wèn)題。

其他

CHIP2018針對(duì)中文的真實(shí)患者健康咨詢語(yǔ)料,進(jìn)行問(wèn)句意圖匹配

CHIP2019平安醫(yī)療科技疾病問(wèn)答遷移學(xué)習(xí)比賽

鏈接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP

4

Data_數(shù)據(jù)中有6個(gè)文件夾分別是:

94596個(gè)問(wèn)答對(duì)220606個(gè)問(wèn)答對(duì)183751個(gè)問(wèn)答對(duì)75553個(gè)問(wèn)答對(duì)101602個(gè)問(wèn)答對(duì)115991個(gè)問(wèn)答對(duì) 總計(jì) 792099個(gè)問(wèn)答對(duì)

每個(gè)文件夾下有一個(gè)csv文件,其中的數(shù)據(jù)格式為:

department title ask answer
心血管科 高血壓患者能吃黨參嗎? 我有高血壓這兩天女婿來(lái)的時(shí)候給我拿了些黨參泡水喝,您好高血壓可以吃黨參嗎? 高血壓病人可以口服黨參的。黨參有降血脂,降血壓的作用,可以徹底消除血液中的垃圾,從而對(duì)冠心病以及心血管疾病的患者都有一定的穩(wěn)定預(yù)防工作作用,因此平時(shí)口服黨參能遠(yuǎn)離三高的危害。另外黨參除了益氣養(yǎng)血,降低中樞神經(jīng)作用,調(diào)整消化系統(tǒng)功能,健脾補(bǔ)肺的功能。感謝您的進(jìn)行咨詢,期望我的解釋對(duì)你有所幫助。
消化科 哪家醫(yī)院能治胃反流 燒心,打隔,咳嗽低燒,以有4年多 建議你用奧美拉唑同時(shí),加用嗎丁啉或莫沙必利或援生力維,另外還可以加用達(dá)喜片

鏈接:https://github.com/Toyhom/Chinese-medical-dialogue-data

5

This dataset is used for Chinese medical QA intent understanding task.

Dataset format:

All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

{ "originalText": "間質(zhì)性肺炎的癥狀?", "entities": [{"label_type": "疾病和診斷", "start_pos": 0, "end_pos": 5}], "seg_result": ["間質(zhì)性肺炎", "的", "癥狀", "?"], "label_4class": ["病癥"], "label_36class": ["臨床表現(xiàn)"] }

鏈接:https://github.com/liutongyang/CMID

6

This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.

鏈接:https://github.com/zhangsheng93/cMedQA

7

COVID19 Language Resources: Datasets

鏈接:https://github.com/lwgkzl/Covid19-NLP

8

Datasets

BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V athttps://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online athttp://arnetminer.org/TCMRelExtr.

The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available athttp://i2b2.org/NLP/DataSets.

鏈接:https://github.com/chentao1999/MedicalRelationExtraction

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 醫(yī)療
    +關(guān)注

    關(guān)注

    8

    文章

    2001

    瀏覽量

    61636
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26208
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23282

原文標(biāo)題:醫(yī)療NLP相關(guān)數(shù)據(jù)集整理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    晶科能源不沾灰自潔組件的問(wèn)題解答(2)

    關(guān)于晶科不沾灰組件,在昨天的直播中大家的反響很熱烈,為此小編今天整理了大家的熱點(diǎn)問(wèn)題第二,并同步更新在了官網(wǎng),方便查閱。歡迎大家繼續(xù)在評(píng)論區(qū)留言、互動(dòng)。
    的頭像 發(fā)表于 03-09 17:46 ?1214次閱讀

    自然語(yǔ)言處理NLP的概念和工作原理

    自然語(yǔ)言處理 (NLP) 是人工智能 (AI) 的個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書(shū)面形式的人類語(yǔ)言。自然語(yǔ)言處理將計(jì)算語(yǔ)言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來(lái)處理語(yǔ)音和文本數(shù)據(jù),這些數(shù)據(jù)
    的頭像 發(fā)表于 01-29 14:01 ?410次閱讀
    自然語(yǔ)言處理<b class='flag-5'>NLP</b>的概念和工作原理

    從構(gòu)想到必然:邊緣計(jì)算正在開(kāi)啟下一波創(chuàng)新浪潮

    導(dǎo)讀在數(shù)字技術(shù)的演進(jìn)歷程中,我們見(jiàn)證了場(chǎng)關(guān)于“計(jì)算力”位置的輪回。在互聯(lián)網(wǎng)尚未普及的早期,所有的計(jì)算任務(wù)都在本地完成。隨后,隨著云計(jì)算技術(shù)的爆發(fā),數(shù)據(jù)存儲(chǔ)與處理大規(guī)模向云端遷移。而如今,隨著物聯(lián)網(wǎng)
    的頭像 發(fā)表于 01-28 16:48 ?989次閱讀
    從構(gòu)想到必然:邊緣計(jì)算正在開(kāi)啟下<b class='flag-5'>一波</b>創(chuàng)新浪潮

    晶科能源Tiger Neo 3.0的問(wèn)題解答(9)

    關(guān)于晶科能源飛虎3(Tiger Neo 3.0)組件,近期受到了大家廣泛關(guān)注,不知不覺(jué)到了第九。小編繼續(xù)整理了大家最為關(guān)心的熱點(diǎn)問(wèn)題,并同步更新在了官網(wǎng)上,方便查閱。歡迎大家繼續(xù)在評(píng)論區(qū)留言、互動(dòng)。
    的頭像 發(fā)表于 01-28 11:33 ?514次閱讀

    晶科能源Tiger Neo 3.0的問(wèn)題解答(8)

    關(guān)于晶科能源飛虎3(Tiger Neo 3.0)組件,近期受到了大家廣泛關(guān)注,不知不覺(jué)到了第八。小編繼續(xù)整理了大家最為關(guān)心的熱點(diǎn)問(wèn)題,并同步更新在了官網(wǎng)上,方便查閱。歡迎大家繼續(xù)在評(píng)論區(qū)留言、互動(dòng)。
    的頭像 發(fā)表于 12-09 15:14 ?698次閱讀

    晶科能源Tiger Neo 3.0的問(wèn)題解答(6)

    關(guān)于飛虎3(Tiger Neo3.0)組件,在上周剛剛舉行的晶科能源飛虎3量產(chǎn)下線暨全球訂購(gòu)會(huì)上,我們看到網(wǎng)友在直播間和官網(wǎng)上都提了些的問(wèn)題,小編給大家收集整理了一波。這些問(wèn)題和答案
    的頭像 發(fā)表于 12-02 18:03 ?2020次閱讀

    干貨放送!宏物流運(yùn)輸沖擊記錄儀直播精選問(wèn)答集錦,你想知道的都在這

    收到了眾多提問(wèn),展現(xiàn)了大家對(duì)宏物流運(yùn)輸沖擊振動(dòng)監(jiān)測(cè)方案的興趣和對(duì)行業(yè)未來(lái)的深切關(guān)注。為此,我們整理了這些問(wèn)題并邀請(qǐng)技術(shù)工程師解答,梳理出直播Q&A精選版(建議收
    的頭像 發(fā)表于 09-02 17:03 ?837次閱讀
    干貨放送!宏<b class='flag-5'>集</b>物流運(yùn)輸沖擊記錄儀直播精選問(wèn)答集錦,你想知道的都在這

    晶科能源Tiger Neo 3.0的問(wèn)題解答(2)

    關(guān)于Tiger Neo 3.0,朋友們關(guān)心、詢問(wèn)的話題很多,昨天集中回答了大家提的的10個(gè)熱點(diǎn)問(wèn)題,有網(wǎng)友后臺(tái)留言說(shuō)自己的問(wèn)題被選中,今天我們整理了第二。這些問(wèn)題和答案同步更新至官網(wǎng)。未來(lái),我們將針對(duì)大家關(guān)心的問(wèn)題,繼續(xù)不定期
    的頭像 發(fā)表于 08-20 14:09 ?637次閱讀

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問(wèn)題,把數(shù)據(jù)
    發(fā)表于 08-13 07:16

    AI Cube如何導(dǎo)入數(shù)據(jù)?

    我從在線平臺(tái)標(biāo)注完并且下載了數(shù)據(jù),也按照ai cube的要求修改了文件夾名稱,但是導(dǎo)入提示 不知道是什么原因,我該怎么辦? 以下是我修改后的文件夾目錄
    發(fā)表于 08-11 08:12

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具?

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)標(biāo)注可以使用什么工具? 我使用labelimg進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)改好文件名后導(dǎo)入不進(jìn)去。直卡在
    發(fā)表于 08-11 08:07

    云訓(xùn)練平臺(tái)數(shù)據(jù)過(guò)大無(wú)法下載數(shù)據(jù)至本地怎么解決?

    起因是現(xiàn)在平臺(tái)限制了圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)時(shí)發(fā)現(xiàn)只會(huì)跳出網(wǎng)絡(luò)異常的錯(cuò)誤,請(qǐng)問(wèn)這有什么解決辦法?
    發(fā)表于 07-22 06:03

    澳鵬發(fā)布MediGo醫(yī)療大模型數(shù)據(jù)開(kāi)發(fā)平臺(tái) 破解醫(yī)療AI數(shù)據(jù)瓶頸

    上海?2025年6月23日?/美通社/ -- 全球領(lǐng)先的AI數(shù)據(jù)服務(wù)提供商澳鵬Appen(中國(guó))今日正式發(fā)布MediGo醫(yī)療大模型數(shù)據(jù)開(kāi)發(fā)平臺(tái),這創(chuàng)新性平臺(tái)旨在解決
    的頭像 發(fā)表于 06-24 07:26 ?384次閱讀
    澳鵬發(fā)布MediGo<b class='flag-5'>醫(yī)療</b>大模型<b class='flag-5'>數(shù)據(jù)</b>開(kāi)發(fā)平臺(tái) 破解<b class='flag-5'>醫(yī)療</b>AI<b class='flag-5'>數(shù)據(jù)</b>瓶頸

    使用AICube導(dǎo)入數(shù)據(jù)點(diǎn)創(chuàng)建后提示數(shù)據(jù)不合法怎么處理?

    重現(xiàn)步驟 data目錄下 labels.txt只有英文 **錯(cuò)誤日志** 但是使用示例的數(shù)據(jù)可以完成訓(xùn)練并部署
    發(fā)表于 06-24 06:07

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯(cuò)網(wǎng)絡(luò)錯(cuò)誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04