91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析DARTS:海量數(shù)據(jù)訓(xùn)練和新樣本特征的綜合

mK5P_AItists ? 來源:YXQ ? 2019-04-17 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:研究人員首次將深度學(xué)習(xí)與貝葉斯假設(shè)檢驗(yàn)結(jié)合,利用深度學(xué)習(xí)強(qiáng)化RNA可變剪接分析的準(zhǔn)確性。

在生命科研領(lǐng)域,常有人說深度學(xué)習(xí)的基因組學(xué)應(yīng)用好比是“一個盲人在一間黑暗的房子里尋找一頂并不存在的黑色帽子”。言下之意,是遺憾深度學(xué)習(xí)的基因組學(xué)應(yīng)用并沒有給人們帶來太多驚喜。不過,近日賓夕法尼亞大學(xué)和費(fèi)城兒童醫(yī)院教授邢毅團(tuán)隊的一項研究,找到了這樣一頂“黑帽子”。

這項發(fā)表在《自然—方法》上的論文成果,提出了一種新的計算框架——DARTS(“利用深度學(xué)習(xí)強(qiáng)化對RNA-seq的可變剪接分析”英文的首字母縮寫)。該計算框架首次將深度學(xué)習(xí)與貝葉斯假設(shè)檢驗(yàn)結(jié)合,用于RNA可變剪接分析。這種結(jié)合使得它即使對于測序深度不那么高的樣品,也能有效提高RNA-seq定量差異剪接的準(zhǔn)確度。

清華大學(xué)生命科學(xué)學(xué)院教授張強(qiáng)鋒點(diǎn)評道:“DARTS綜合了深度學(xué)習(xí)和貝葉斯假設(shè)檢驗(yàn)統(tǒng)計模型的優(yōu)點(diǎn),為那些低測序深度的數(shù)據(jù)提供了更好的做可變剪接分析的手段,拓展了傳統(tǒng)RNA-seq可變剪接分析的敏感度和準(zhǔn)確度?!?/p>

計算基因組學(xué)中

一個廣受關(guān)注的問題

邢毅等人在上述論文中指出,目前,RNA-seq技術(shù)是研究RNA剪接最常用的實(shí)驗(yàn)手段。然而,RNA-seq技術(shù)雖然能較好地定量基因表達(dá)的結(jié)果,但對于差異剪接分析來說,它依賴于更高的測序深度。而且即便如此,現(xiàn)有的計算方法還不能較準(zhǔn)確地定量低表達(dá)基因的剪接變化。因此,為了提高剪接定量的準(zhǔn)確性,急需引入新的計算分析方法。

“可變剪接現(xiàn)象從20世紀(jì)70年代被發(fā)現(xiàn)后,其基本的科學(xué)問題聚焦為可變剪接位點(diǎn)發(fā)現(xiàn)、差異分析、調(diào)控元件和網(wǎng)絡(luò)的發(fā)現(xiàn)和構(gòu)建。RNA-seq 技術(shù)的發(fā)明,使得系統(tǒng)、定量的可變剪接差異分析成為可能?!睆垙?qiáng)鋒介紹說,大量測序數(shù)據(jù)的可變剪接差異分析需要優(yōu)秀的統(tǒng)計模型和計算工具,因此一直是一個需要高度技巧的生物信息學(xué)研究課題。

據(jù)張強(qiáng)鋒介紹,邢毅研究組在針對大量測序數(shù)據(jù)的可變剪接差異分析的計算分析領(lǐng)域深耕多年,已經(jīng)貢獻(xiàn)了多個有影響力的算法和計算工具。該團(tuán)隊針對高通量RNA-seq數(shù)據(jù)開發(fā)出的用于差異剪接分析的rMATS等軟件,對于測序較深、質(zhì)量較好的數(shù)據(jù)集都能取得不錯的結(jié)果,已在全世界范圍內(nèi)被廣泛下載使用。

然而,由于成本等原因,大量RNA-seq 測序?qū)嶒?yàn)設(shè)計的測序深度較淺。對于這些數(shù)據(jù)集,能利用來做差異分析的可變剪接事件非常有限。

美國卡耐基梅隆大學(xué)計算機(jī)學(xué)院教授馬堅也表示,在基因組學(xué)中,確實(shí)有很多類似的問題——如何在現(xiàn)有數(shù)據(jù)上對特定的基因組標(biāo)注(譬如染色質(zhì)結(jié)構(gòu)、轉(zhuǎn)錄因子結(jié)合)訓(xùn)練一個機(jī)器學(xué)習(xí)模型并在全新的細(xì)胞系中有效預(yù)測,已經(jīng)成為一個計算基因組學(xué)中廣泛關(guān)注的問題?!癉ARTS嶄新的整體設(shè)計理念值得很多其他類似的問題借鑒?!?/p>

DARTS計算框架

給出問題答案

據(jù)邢毅研究組這篇發(fā)表在《自然—方法》上的論文介紹,DARTS由兩部分構(gòu)成:深度神經(jīng)網(wǎng)絡(luò)模塊(DNN)和貝葉斯推斷模塊(BHT)。其中,DNN基于順式序列特征和樣品特異的RNA結(jié)合蛋白表達(dá)水平特征來預(yù)測差異剪接的結(jié)果;而BHT則通過整合實(shí)驗(yàn)樣品測序數(shù)據(jù)本身和基于深度神經(jīng)網(wǎng)絡(luò)的先驗(yàn)概率來推斷差異剪接的結(jié)果。

研究者在論文中強(qiáng)調(diào)稱,與其他計算方法不同的是,在DARTS計算框架下,DNN不僅通過順式序列特征來預(yù)測可變剪接的結(jié)果,而且還將樣品中RNA結(jié)合蛋白的表達(dá)水平整合進(jìn)了RNA可變剪接結(jié)果的預(yù)測中,增加了預(yù)測參數(shù)的維度。

DARTS的邏輯是,通過DNN對ENCODE和Roadmap數(shù)據(jù)庫中大量RNA-seq結(jié)果的深度學(xué)習(xí),能夠獲得高精度的預(yù)測值作為BHT中的貝葉斯先驗(yàn)概率,進(jìn)而結(jié)合具體實(shí)驗(yàn)中RNA-seq的結(jié)果,來獲得更為準(zhǔn)確的差異剪接推斷。

在研究實(shí)踐中,邢毅研究組發(fā)現(xiàn),在低通量RNA-seq文庫中,通過使用DNN預(yù)測值進(jìn)行強(qiáng)化分析后,能夠達(dá)到比使用傳統(tǒng)方法分析更高的準(zhǔn)確度,并且這種提升在越低通量的文庫中越明顯;即使在高通量的RNA-seq文庫中,使用DNN預(yù)測仍能發(fā)現(xiàn)在低表達(dá)基因中的可變剪接變化。而在過去,這些低表達(dá)基因的可變剪接變化在傳統(tǒng)分析方法中往往會被忽略。

也就是說,研究結(jié)果證明了DARTS不僅提升了基于RNA-seq方法研究可變剪接的準(zhǔn)確性,同時也提供了在低表達(dá)基因中研究可變剪接的研究手段。

解析DARTS:

海量數(shù)據(jù)訓(xùn)練和新樣本特征的綜合

“從計算方法設(shè)計的策略和概念角度而言,此工作的最大亮點(diǎn)是充分利用海量公有數(shù)據(jù)如ENCODE,但模型本身又不完全依賴于這些公有數(shù)據(jù)?!瘪R堅點(diǎn)評道,換言之,DARTS的整體思想是用深度神經(jīng)網(wǎng)絡(luò)從現(xiàn)有海量數(shù)據(jù)中找出通用的有用信息作為先驗(yàn),然后用貝葉斯假設(shè)檢驗(yàn)結(jié)合來自樣本本身的RNA-seq數(shù)據(jù)信息,做可變剪接的預(yù)測,“這有效綜合了海量數(shù)據(jù)的訓(xùn)練以及新樣本的特殊性”。

馬堅解釋說,從模型本身的技術(shù)角度而言,DARTS有效利用了深度神經(jīng)網(wǎng)絡(luò)對異質(zhì)數(shù)據(jù)特征的整合,并且整個計算方法的評測和方法都比較“明智而審慎”。他舉例說,比如DARTS的深度神經(jīng)網(wǎng)絡(luò)部分結(jié)合了剪接位置附近的序列信息、進(jìn)化信息、可變剪接產(chǎn)生的RNA二級結(jié)構(gòu)信息等;同時DARTS還巧妙地利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果來作為貝葉斯假設(shè)檢驗(yàn)中的先驗(yàn)數(shù)據(jù),結(jié)合樣本本身的RNA-seq序列信息實(shí)現(xiàn)了更可靠的可變剪接預(yù)測。

馬堅將基因組學(xué)形容為一個“存在太多未知和容易迷失的領(lǐng)域”,因此他認(rèn)為,有效深度學(xué)習(xí)的使用需要有強(qiáng)大的領(lǐng)域知識作為支撐。而DARTS工作恰恰體現(xiàn)了邢毅實(shí)驗(yàn)室多年以來對可變剪接機(jī)理的研究和計算方法創(chuàng)新的積累?!坝缮钊氲念I(lǐng)域知識和經(jīng)驗(yàn)作為指導(dǎo),是一個有效利用不同計算模型和深度學(xué)習(xí)方法的優(yōu)勢實(shí)現(xiàn)基因組學(xué)新發(fā)現(xiàn)的經(jīng)典工作。”

張強(qiáng)鋒也直指“巧妙利用公開的RNA-seq大數(shù)據(jù)樣本、使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到了外顯子差異剪接的貝葉斯假設(shè)檢驗(yàn)統(tǒng)計模型的準(zhǔn)確先驗(yàn)概率分布”是DARTS在方法上最大的特色。同時他也表示,該計算框架使用深度神經(jīng)網(wǎng)絡(luò)通過順式序列和反式因子RBP表達(dá)豐度進(jìn)行差異剪接預(yù)測的思路也值得借鑒。

此外,馬堅認(rèn)為論文中其他對于機(jī)器學(xué)習(xí)方法的評測同樣可圈可點(diǎn)。例如,對常見的正負(fù)樣本不均衡的問題對模型訓(xùn)練和評測可能帶來的偏差有細(xì)致的控制。另外,該計算框架對模型中每個模塊的貢獻(xiàn)也做了詳細(xì)分析。

“隨著RNA-seq數(shù)據(jù)的不斷積累,相信DARTS會有廣泛的應(yīng)用,尤其是在RNA-seq測序深度并不高的實(shí)驗(yàn)情況下?!瘪R堅說,這個計算工具對進(jìn)一步理解可變剪接在不同細(xì)胞狀態(tài)下的調(diào)控機(jī)理有深遠(yuǎn)的意義。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7341

    瀏覽量

    94899
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5600

    瀏覽量

    124482

原文標(biāo)題:科學(xué)家找到深度學(xué)習(xí)基因組學(xué)應(yīng)用的一頂“黑帽子”

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    芯盾時代揭秘訓(xùn)練數(shù)據(jù)投毒攻擊

    在人工智能的“大航海時代”,大語言模型(LLM)被視為通往AGI(通用人工智能)的“方舟”。當(dāng)人們贊嘆于LLM的博學(xué)與全能,不斷給它投喂海量數(shù)據(jù),通過工程優(yōu)化實(shí)現(xiàn)模型參數(shù)的指數(shù)級增長時,一股隱秘
    的頭像 發(fā)表于 01-23 10:25 ?606次閱讀

    TDK PTC熱敏電阻:低壓應(yīng)用加熱元件樣本套件解析

    TDK PTC熱敏電阻:低壓應(yīng)用加熱元件樣本套件解析 在電子設(shè)備的設(shè)計中,加熱元件的選擇至關(guān)重要,尤其是在低壓應(yīng)用場景下。今天我們來詳細(xì)了解一下TDK的PTC熱敏電阻加熱元件樣本套件,它為低壓
    的頭像 發(fā)表于 12-25 16:55 ?802次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。一旦模型被訓(xùn)練并保存,就可以用于對新圖像進(jìn)行推理和預(yù)測。要使用生成的模型進(jìn)行推理,可以按照以下步驟進(jìn)行操作: 1.
    發(fā)表于 10-22 07:03

    模板驅(qū)動 無需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    算法作為軟實(shí)力,其水平直接影響著目標(biāo)檢測識別的能力。兩年前,慧視光電推出了零基礎(chǔ)的基于yolo系列算法架構(gòu)的AI算法開發(fā)平臺SpeedDP,此平臺能夠通過數(shù)據(jù)驅(qū)動模型訓(xùn)練,實(shí)現(xiàn)算法從0到1的開發(fā)訓(xùn)練
    的頭像 發(fā)表于 09-09 17:57 ?1446次閱讀
    模板驅(qū)動  無需<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b>  SmartDP解決小<b class='flag-5'>樣本</b>AI算法模型開發(fā)難題

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中扮演著至關(guān)重要的角色,它通過深度解析PCIe總線的物理層、鏈路層、事務(wù)層及應(yīng)用層協(xié)議,幫助運(yùn)維人員、硬件工程師和系統(tǒng)架構(gòu)師優(yōu)化性能、診斷故障、驗(yàn)證設(shè)計合規(guī)性,并提
    發(fā)表于 07-29 15:02

    訓(xùn)練平臺數(shù)據(jù)集過大無法下載數(shù)據(jù)集至本地怎么解決?

    起因是現(xiàn)在平臺限制了圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)集時發(fā)現(xiàn)只會跳出網(wǎng)絡(luò)異常的錯誤,請問這有什么解決辦法?
    發(fā)表于 07-22 06:03

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    多少數(shù)據(jù),才能形成合適的樣本集,進(jìn)而開始訓(xùn)練模型呢? 此時,回答“按需提供”或者“先試試看”似乎會變成一句車轱轆話,看似回答了問題,但客戶還是無從下手。 AI數(shù)據(jù)
    的頭像 發(fā)表于 06-11 16:30 ?1434次閱讀

    算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    過程中,由于單個AI芯片的算力提升速度無法跟上模型參數(shù)的增長速率,再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超出單個AI芯片甚至單臺服務(wù)器的能力范圍。因此,需要將數(shù)據(jù)樣本和模型結(jié)構(gòu)分散到多
    的頭像 發(fā)表于 06-08 08:11 ?7531次閱讀
    算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式<b class='flag-5'>訓(xùn)練</b>范式

    OCR識別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標(biāo)注好了,點(diǎn)擊開始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點(diǎn),參考我們的ocr識別訓(xùn)練
    發(fā)表于 05-28 06:46

    海思SD3403邊緣計算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的
    發(fā)表于 04-28 11:11

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對差異化AI 應(yīng)用場景,自己采集樣本數(shù)據(jù),進(jìn)行AI特征標(biāo)定,AI模型訓(xùn)練,AI應(yīng)用部署的
    發(fā)表于 04-28 11:05

    電磁頻譜數(shù)據(jù)綜合管理平臺系統(tǒng)全面解析

    電磁頻譜數(shù)據(jù)綜合管理平臺
    的頭像 發(fā)表于 04-23 16:25 ?759次閱讀

    西門子伺服電機(jī)簡明樣本

    西門子伺服電機(jī)簡明樣本
    發(fā)表于 04-14 15:36 ?2次下載

    快速部署!米爾全志T527開發(fā)板的OpenCV行人檢測方案指南

    、行人檢測概論使用HOG和SVM基于全志T527開發(fā)板構(gòu)建行人檢測器的關(guān)鍵步驟包括: 準(zhǔn)備訓(xùn)練數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集應(yīng)包含大量正樣本(行人圖像)
    發(fā)表于 04-11 18:14

    支持48位尋址!華為開源文件系統(tǒng)EROFS跨入大模型訓(xùn)練

    電子發(fā)燒友網(wǎng)綜合報道 AI大模型帶來算力硬件需求升級,算力芯片、HBM內(nèi)存等迎來需求暴增。而在軟件端,由于AI大模型的海量數(shù)據(jù)、高算力需求、分布式訓(xùn)練等特點(diǎn),對文件系統(tǒng)也提出了與傳統(tǒng)應(yīng)
    發(fā)表于 03-27 01:22 ?1127次閱讀