91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提高數據分析的科學性與透明度,用統(tǒng)計學“反轉”中心法則

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2021-01-06 14:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“對我而言,回答了自己心中的問題或者做出一個新的發(fā)現,這種成就感要遠高于生活中的其他快樂?!崩铈阂顚Α堵槭±砉た萍荚u論》中國這樣說道。

而她的研究內容在很多人眼里或許稍顯枯燥:針對前沿的生物學問題開發(fā)新的統(tǒng)計學方法,尤其著重于對大規(guī)?;蚪M和轉錄組數據進行分析方法的開發(fā)。

由于高通量實驗技術的發(fā)展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規(guī)模數據的產生也需要算法才能夠進行分析,從而總結出數學規(guī)律并用規(guī)律來刻畫事物的本質。

加州大學洛杉磯分校(UCLA)統(tǒng)計系(已獲得終身教職)副教授和博士生導師,生物統(tǒng)計系、人類遺傳學系和計算醫(yī)學系博士生導師李婧翌認為,生命科學作為一個“宏科學”,盡管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對于從小對數學與科學有強烈興趣、并在本科與博士階段分別接受了生命科學與生物統(tǒng)計學系統(tǒng)教育的李婧翌有強大的吸引。

李婧翌的研究專注于統(tǒng)計學與生命科學的交叉問題,她首創(chuàng)性地使用嚴格的統(tǒng)計學來分析已發(fā)表的轉錄組學和蛋白組學數據,發(fā)現在過往研究中,由于研究人員對測量誤差的忽略,轉錄的重要性被嚴重低估,該分析挑戰(zhàn)了“翻譯比轉錄重要”的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發(fā)現。因其重要性,李婧翌的研究結果被發(fā)表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。

7a9455dc-4fcd-11eb-8b86-12bb97331649.png

圖 | 左圖是論文 B.Schwanh?usseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯、mRNA 降解和蛋白質降解這四個步驟對于蛋白質含量的貢獻的估計;右圖是在校正了實驗數據誤差之后的估計。(來源:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science347(6226):1066-1067.)

此外,李婧翌團隊還開發(fā)了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統(tǒng)測量,并正在開發(fā)一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統(tǒng)計度量。

憑借上述優(yōu)異的研究成果,李婧翌成功入選 《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”(Innovators Under 35)2020 年中國區(qū)榜單。

圖 |《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”2020 年中國區(qū)榜單入選者李婧翌

無心插柳,卻顛覆固有認知

早在 1958 年,中心轉錄法則便被提出,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質,這是所有有細胞結構的生物所遵循的法則。 在這個過程中,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述,“沒有人知道每一步的速率是多少,也沒有人知道對最后蛋白質含量的影響有多少?!? 在李婧翌博士即將畢業(yè)之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會,李婧翌和合作者發(fā)現,2011 年發(fā)表在Nature上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對于蛋白質含量的預測效果比較差,也就是說一個基因內 mRNA 的高或低并不太能代表它的蛋白質含量的高或低。 “這在當時是個非常讓人震驚的結論。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發(fā)現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那么之前很多 mRNA 的結果可能都沒有什么意義了?!崩铈阂罱忉尩?。 當李婧翌與合作伙伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中,它的標準實際上只基于高表達蛋白,并假設同樣的轉換方式也適用于低表達蛋白,由此導致了研究里面很多低表達蛋白的表達指征是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。 為了解決這一疑惑,李婧翌將實驗誤差考慮進建模后發(fā)現,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報道的要高很多,轉錄的重要性被嚴重低估。這項“無心插柳”的研究結果被發(fā)表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。 李婧翌對《麻省理工科技評論》中國回憶道:“我覺得很有趣的一點是,我們將很基本的統(tǒng)計方法用到了正確的問題上,從而發(fā)現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要?!边@一年,李婧翌還不到 30 歲。科研與教育同樣重要 作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界,是支撐她科研工作的重要推動力。 作為一個科研人員,李婧翌認為目前的統(tǒng)計分析還遠遠談不上科學,“如果一個分析人員在寫研究報告時沒有記錄分析的每一步,而只是簡略地記錄一個結果,那最終結果就不太透明,并且可能也不能被重復,可信度就要大打折扣。” 此外,李婧翌提到,如果要將最新研究的統(tǒng)計學方法發(fā)表在比較好的學術雜志上,通常情況下做的越復雜越容易發(fā)表,這就導致統(tǒng)計學領域出現一個通病:很多統(tǒng)計方法都比較像“黑箱”,它們過于復雜,也沒有給實際應用的人員講授清楚優(yōu)缺點到底在哪里。

7c078128-4fcd-11eb-8b86-12bb97331649.png

圖 | 對于同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特征。大部分的病人已知得病或未得病。如果研究問題是:基因A是否為一個有效的疾病標志物,那么假設檢驗是合適的統(tǒng)計方法。而如果研究問題是:1號病人是否得病,那么二元分類是合適的統(tǒng)計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.)

作為一個有交叉學科背景的研究人員,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優(yōu)缺點和適用范圍,同時,李婧翌自己發(fā)展新方法也將以此為目標,創(chuàng)造出更透明、更穩(wěn)定的統(tǒng)計學方法。舉例而言,李婧翌在最近發(fā)表的一篇文章中就嘗試對兩種常用但經常被混淆的統(tǒng)計方法:假設檢驗和二元分類,進行解釋并闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什么基于現有的大數據,二元分類是一個更加適用的統(tǒng)計方法。 作為教師,李婧翌致力于將統(tǒng)計方法開發(fā)和實際應用的重要性更緊密的結合。 李婧翌認為,無論中美,目前統(tǒng)計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算。統(tǒng)計學教育更重要的應該是去教授學生為什么需要統(tǒng)計學,數據背后的隨機性應該怎么去理解,以及數據分析到底想解決什么問題,“我覺得這些其實是統(tǒng)計教育需要改變的的東西,我希望我能夠發(fā)揮一些作用?!?

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    31

    文章

    5950

    瀏覽量

    90382
  • 統(tǒng)計
    +關注

    關注

    1

    文章

    21

    瀏覽量

    13728
  • 數據分析
    +關注

    關注

    2

    文章

    1518

    瀏覽量

    36298

原文標題:提高數據分析的科學性與透明度,UCLA教授用統(tǒng)計學“反轉”中心法則

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    API數據分析:淘寶流量來源分析,渠道優(yōu)化!

    優(yōu)化渠道策略。我們將使用Python作為工具,結合數據分析統(tǒng)計方法,確保過程真實可靠。 1. 理解淘寶流量來源 淘寶流量主要來自多個渠道,包括: 直接訪問 :用戶直接輸入淘寶網址或從收藏夾訪問。 搜索引擎 :如百度或淘寶內搜索,貢獻
    的頭像 發(fā)表于 01-23 13:42 ?248次閱讀
    API<b class='flag-5'>數據分析</b>:淘寶流量來源<b class='flag-5'>分析</b>,渠道優(yōu)化!

    算力賦能,打造生命科學云上新范式

    云端算力驅動生命科學創(chuàng)新,實現百萬樣本高效分析 ? ? 某生命科學研究院推出的生命科學數據分析平臺,是一款基于云架構、由AI驅動的多組
    的頭像 發(fā)表于 01-12 14:01 ?398次閱讀

    IBM Granite登頂斯坦福大學2025年基礎模型透明度指數報告

    IBM Granite 模型系列在斯坦福大學發(fā)布的 2025年“基礎模型透明度指數”(Stanford Foundation Model Transparency Index)名列第一,并創(chuàng)下該指數的歷史最高分。
    的頭像 發(fā)表于 12-24 11:20 ?662次閱讀
    IBM Granite登頂斯坦福大學2025年基礎模型<b class='flag-5'>透明度</b>指數報告

    松下透明導電薄膜:先進的透明電磁屏蔽解決方案

    松下透明導電薄膜:先進的透明電磁屏蔽解決方案 在電子設備日益普及的今天,電磁干擾(EMI)問題愈發(fā)突出,如何在保證設備透明度的同時有效屏蔽電磁干擾,成為了電子工程師們面臨的重要挑戰(zhàn)。松下推出的
    的頭像 發(fā)表于 12-21 17:00 ?1384次閱讀

    經營數據分析可以通過哪些方式

    系統(tǒng)的、科學的、符合商業(yè)規(guī)律的數據分析知識。這些數據分析都要基于數據質量,所以通常我們還會需要有個數據
    的頭像 發(fā)表于 12-05 16:31 ?663次閱讀

    泥漿分離機PLC數據采集遠程維護系統(tǒng)方案

    的不斷提升,對泥漿分離機的實時監(jiān)控與數據采集需求日益迫切。 本方案旨在通過數據采集網關,實現泥漿分離機PLC數據的實時采集、遠程傳輸、云端存儲與可視化展示,以及遠程維護與數據分析等功能
    的頭像 發(fā)表于 10-16 15:45 ?491次閱讀
    泥漿分離機PLC<b class='flag-5'>數據</b>采集遠程維護系統(tǒng)方案

    【產品介紹】Altair RapidMiner數據分析與人工智能平臺

    AltairRapidMiner賦能組織解鎖數據洞察,運用數據分析和先進的人工智能自動化,提供可擴展的面向未來的解決方案。Altair數據分析和人工智能平臺包括數據準備、
    的頭像 發(fā)表于 09-18 17:56 ?888次閱讀
    【產品介紹】Altair RapidMiner<b class='flag-5'>數據分析</b>與人工智能平臺

    電磁兼容與電磁干擾在電磁兼容數據分析中的智能管理平臺

    電磁兼容與電磁干擾在電磁兼容數據分析中的智能管理系統(tǒng)
    的頭像 發(fā)表于 09-17 14:58 ?603次閱讀
    電磁兼容與電磁干擾在電磁兼容<b class='flag-5'>性</b>大<b class='flag-5'>數據分析</b>中的智能管理平臺

    電磁兼容與電磁干擾在電磁兼容數據分析中的智能管理系統(tǒng)

    電磁兼容與電磁干擾在電磁兼容數據分析中的智能管理系統(tǒng)
    的頭像 發(fā)表于 09-17 14:42 ?906次閱讀
    電磁兼容與電磁干擾在電磁兼容<b class='flag-5'>性</b>大<b class='flag-5'>數據分析</b>中的智能管理系統(tǒng)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    靈感的過程中發(fā)揮關鍵作用。五、AI實現諾貝爾獎級別的科學發(fā)現 這想法這能夠大膽的。 1、AI科學家的構建 全自主科學實驗室需要哪些部分: ①自動實驗設備 ②流程管理系統(tǒng) ③
    發(fā)表于 09-17 11:45

    普迪飛 Exensio?數據分析平臺 | Test Operations解鎖半導體測試新紀元

    )提供全面的數據分析,幫助企業(yè)保障產品質量,提高生產效率。三位一體:測試數據鏈接、控制與分析ExensioTestOperations旨在捕獲測試
    的頭像 發(fā)表于 08-19 13:53 ?1338次閱讀
    普迪飛 Exensio?<b class='flag-5'>數據分析</b>平臺 | Test Operations解鎖半導體測試新紀元

    電焊機EMC測試整改:基于200+案例的統(tǒng)計學分析

    深圳南柯電子|電焊機EMC測試整改:基于200+案例的統(tǒng)計學分析
    的頭像 發(fā)表于 08-06 10:56 ?1386次閱讀

    PCIe協(xié)議分析儀在數據中心中有何作用?

    PCIe協(xié)議分析儀在數據中心中扮演著至關重要的角色,它通過深度解析PCIe總線的物理層、鏈路層、事務層及應用層協(xié)議,幫助運維人員、硬件工程師和系統(tǒng)架構師優(yōu)化性能、診斷故障、驗證設計合規(guī),并提
    發(fā)表于 07-29 15:02

    AI數據分析儀設計原理圖:RapidIO信號接入 平板AI數據分析

    AI數據分析儀, 平板數據分析儀, 數據分析儀, AI邊緣計算, 高帶寬數據輸入
    的頭像 發(fā)表于 07-17 09:20 ?781次閱讀
    AI<b class='flag-5'>數據分析</b>儀設計原理圖:RapidIO信號接入 平板AI<b class='flag-5'>數據分析</b>儀

    如何使用協(xié)議分析儀進行數據分析與可視化

    使用協(xié)議分析儀進行數據分析與可視化,需結合數據捕獲、協(xié)議解碼、統(tǒng)計分析及可視化工具,將原始數據轉化為可解讀的圖表和報告。以下是詳細步驟及關鍵
    發(fā)表于 07-16 14:16