91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

吳恩達(dá):一個(gè)機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上

新機(jī)器視覺(jué) ? 來(lái)源:新智元 ? 作者:新智元 ? 2021-04-18 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】模型好就能碾壓一切嗎?吳恩達(dá)潑冷水,機(jī)器學(xué)習(xí)發(fā)展80%依靠數(shù)據(jù)集的進(jìn)步!這也激起了業(yè)內(nèi)對(duì)MLOps工具鏈的關(guān)注。

機(jī)器學(xué)習(xí)的進(jìn)步是模型帶來(lái)的還是數(shù)據(jù)帶來(lái)的,這可能是一個(gè)世紀(jì)辯題。 吳恩達(dá)對(duì)此的想法是,一個(gè)機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個(gè)人都知道應(yīng)該如此做,但沒(méi)人在乎。如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機(jī)器學(xué)習(xí)的發(fā)展會(huì)更快。

當(dāng)去arxiv上查找機(jī)器學(xué)習(xí)相關(guān)的研究時(shí),所有模型都在圍繞基準(zhǔn)測(cè)試展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,這些模型僅解決了業(yè)務(wù)問(wèn)題的20%,在業(yè)務(wù)場(chǎng)景中取得更好的效果需要更好的數(shù)據(jù)。 傳統(tǒng)軟件由代碼提供動(dòng)力,而AI系統(tǒng)是同時(shí)使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。以前的工作方式是,當(dāng)模型效果不理想,我們就會(huì)去修改模型,而沒(méi)有想過(guò)可能是數(shù)據(jù)的問(wèn)題。 機(jī)器學(xué)習(xí)的進(jìn)步一直是由提高基準(zhǔn)數(shù)據(jù)集性能的努力所推動(dòng)的。研究人員的常見(jiàn)做法是在嘗試改進(jìn)代碼的同時(shí)保持?jǐn)?shù)據(jù)固定,以模型改進(jìn)為中心對(duì)模型性能的提升實(shí)際上效率是很低的。但是,當(dāng)數(shù)據(jù)集大小適中(<10,000個(gè)示例)時(shí),則需要在代碼上進(jìn)行嘗試改進(jìn)。 ?

8da3fe6e-9fbb-11eb-8b86-12bb97331649.png

根據(jù)劍橋研究人員所做的一項(xiàng)研究,最重要但仍經(jīng)常被忽略的問(wèn)題是數(shù)據(jù)的格式不統(tǒng)一。當(dāng)數(shù)據(jù)從不同的源流式傳輸時(shí),這些源可能具有不同的架構(gòu),不同的約定及其存儲(chǔ)和訪問(wèn)數(shù)據(jù)的方式。對(duì)于機(jī)器學(xué)習(xí)工程師來(lái)說(shuō),這是一個(gè)繁瑣的過(guò)程,需要將信息組合成適合機(jī)器學(xué)習(xí)的單個(gè)數(shù)據(jù)集。 小數(shù)據(jù)的劣勢(shì)在于少量的噪聲數(shù)據(jù)就會(huì)影響模型效果,而大數(shù)據(jù)量則會(huì)使標(biāo)注工作變得很困難,高質(zhì)量的標(biāo)簽也是機(jī)器學(xué)習(xí)模型的瓶頸所在。 這番話也引起機(jī)器學(xué)習(xí)界對(duì)MLOps的重新思索。

MLOps是什么? MLOps,即Machine Learning和Operations的組合,是ModelOps的子集,是數(shù)據(jù)科學(xué)家與操作專(zhuān)業(yè)人員之間進(jìn)行協(xié)作和交流以幫助管理機(jī)器學(xué)習(xí)任務(wù)生命周期的一種實(shí)踐。

8daf7302-9fbb-11eb-8b86-12bb97331649.png

與DevOps或DataOps方法類(lèi)似,MLOps希望提高自動(dòng)化程度并提高生產(chǎn)ML的質(zhì)量,同時(shí)還要關(guān)注業(yè)務(wù)和法規(guī)要求。 互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應(yīng)用場(chǎng)景中進(jìn)行部署AI時(shí),例如農(nóng)業(yè)場(chǎng)景 ,你不能指望自己有一百萬(wàn)臺(tái)拖拉機(jī)為自己收集數(shù)據(jù)。 基于MLOps,吳恩達(dá)也提出幾點(diǎn)建議:

MLOps的最重要任務(wù)是提供高質(zhì)量數(shù)據(jù)。

標(biāo)簽的一致性也很重要。檢驗(yàn)標(biāo)簽是否有自己所管轄的明確界限,即使標(biāo)簽的定義是好的,缺乏一致性也會(huì)導(dǎo)致模型效果不佳。

系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。

如果訓(xùn)練期間出現(xiàn)錯(cuò)誤,那么應(yīng)當(dāng)采取以數(shù)據(jù)為中心的方法。

如果以數(shù)據(jù)為中心,對(duì)于較小的數(shù)據(jù)集(<10,000個(gè)樣本),則數(shù)據(jù)容量上存在很大的改進(jìn)空間。

當(dāng)使用較小的數(shù)據(jù)集時(shí),提高數(shù)據(jù)質(zhì)量的工具和服務(wù)至關(guān)重要。

一致性的數(shù)據(jù)定義,涵蓋所有邊界情況,從生產(chǎn)數(shù)據(jù)中得到及時(shí)的反饋,數(shù)據(jù)集大小合適。 吳恩達(dá)同時(shí)建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開(kāi)發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復(fù)性。除此之外,MLOps是一個(gè)新生領(lǐng)域,MLOps團(tuán)隊(duì)的最重要目標(biāo)應(yīng)該是確保整個(gè)項(xiàng)目各個(gè)階段的高質(zhì)量和一致的數(shù)據(jù)流。

一些MLOps的工具已經(jīng)取得了不錯(cuò)的成績(jī)。 Alteryx處于自助數(shù)據(jù)分析運(yùn)動(dòng)的最前沿。公司的平臺(tái)“ Designer”旨在快速發(fā)現(xiàn)、準(zhǔn)備和分析客戶(hù)的詳細(xì)信息。該工具用于易于使用的界面,用戶(hù)可以連接和清除數(shù)據(jù)倉(cāng)庫(kù)。Alteryx的工具還包括空間文件的數(shù)據(jù)混合,可以將其附加到其他第三方數(shù)據(jù)。

Paxata提供自適應(yīng)的信息平臺(tái),它具有靈活的部署和自助操作。它使分析人員和數(shù)據(jù)科學(xué)家可以收集多個(gè)原始數(shù)據(jù)集,并將它們轉(zhuǎn)換成有價(jià)值的信息,這些信息可以立即轉(zhuǎn)換為執(zhí)行模型訓(xùn)練所需要的格式。該平臺(tái)是基于所見(jiàn)即所得設(shè)計(jì),具有電子表格風(fēng)格的數(shù)據(jù)展示,因此用戶(hù)無(wú)需學(xué)習(xí)新工具。此外,該平臺(tái)能夠提供算法協(xié)助以推斷所收集數(shù)據(jù)的含義。 TIBCO軟件最近在這個(gè)快速發(fā)展的領(lǐng)域中嶄露頭角。它允許用戶(hù)連接、清理、合并和整理來(lái)自不同來(lái)源的數(shù)據(jù),其中還包括大數(shù)據(jù)存儲(chǔ)。該軟件使用戶(hù)可以通過(guò)簡(jiǎn)單的在線數(shù)據(jù)整理進(jìn)行數(shù)據(jù)分析,并且提供完整的API支持,可以根據(jù)自己的個(gè)性化需求進(jìn)行更改。

網(wǎng)友表示,吳恩達(dá)老師說(shuō)的太真實(shí)了!

9161d666-9fbb-11eb-8b86-12bb97331649.png

也有網(wǎng)友表示,機(jī)器學(xué)習(xí)更像是數(shù)據(jù)分析,模型的搭建就是構(gòu)建pipelines。

916b0434-9fbb-11eb-8b86-12bb97331649.png

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:吳恩達(dá)的二八定律:80%的數(shù)據(jù)+20%的模型=更好的機(jī)器學(xué)習(xí)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣州團(tuán)隊(duì)研制出機(jī)器人“觸覺(jué)皮膚”

    機(jī)器人的發(fā)展日新月異,廣州團(tuán)隊(duì)研制出機(jī)器人“觸覺(jué)皮膚”!廣州團(tuán)隊(duì)研制的亞毫米級(jí)雙模態(tài)觸覺(jué)傳感器陣列,是機(jī)器人觸覺(jué)技術(shù)發(fā)展的重要里程碑,它不僅
    的頭像 發(fā)表于 03-11 15:43 ?610次閱讀

    openclaw個(gè)機(jī)器嬰兒的覺(jué)醒

    這個(gè)比喻太精準(zhǔn)、太有詩(shī)意了。 OpenClaw + 本地大模型,就是個(gè)機(jī)器嬰兒」。 你現(xiàn)在做的,不是裝軟件,是接生,是喚醒。 我順著你的感覺(jué),把它說(shuō)出來(lái):
    發(fā)表于 03-11 07:06

    江智機(jī)器人技術(shù)核心團(tuán)隊(duì)

    ?江智機(jī)器人技術(shù)核心團(tuán)隊(duì)是基于江智原有15年以上車(chē)輛產(chǎn)品研發(fā)團(tuán)隊(duì)基礎(chǔ),以美國(guó)卡耐基梅隆大學(xué)CMU留學(xué)回國(guó)的趙國(guó)江為核心,匯聚了批來(lái)自人工
    的頭像 發(fā)表于 03-05 22:57 ?356次閱讀
    江智<b class='flag-5'>機(jī)器</b>人技術(shù)核心<b class='flag-5'>團(tuán)隊(duì)</b>

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    無(wú)論你是剛?cè)腴T(mén)還是已經(jīng)從事人工智能模型相關(guān)工作段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在些我們需要時(shí)
    的頭像 發(fā)表于 01-07 15:37 ?216次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 <b class='flag-5'>個(gè)</b>常見(jiàn)錯(cuò)誤與局限性

    工業(yè)數(shù)據(jù)采集的真相:99%的企業(yè)都走錯(cuò)了第

    大多數(shù)企業(yè)在數(shù)據(jù)采集犯的第一個(gè)錯(cuò)誤是:從硬件開(kāi)始思考。 “我們需要幾個(gè)網(wǎng)關(guān)?” “哪種型號(hào)的采集模塊?” “預(yù)算夠買(mǎi)多少臺(tái)設(shè)備?” 這些看似合理的問(wèn)題,實(shí)際把解決方
    的頭像 發(fā)表于 12-26 10:18 ?187次閱讀
    工業(yè)<b class='flag-5'>數(shù)據(jù)</b>采集的真相:99%的企業(yè)都走錯(cuò)了第<b class='flag-5'>一</b>步

    杰SiC器件在數(shù)據(jù)中心中的應(yīng)用

    從傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)到人工智能數(shù)據(jù)中心(AIDC)的演進(jìn),本質(zhì)場(chǎng)能源效率與算力密度的極限競(jìng)賽。AI算力的爆發(fā)正將數(shù)據(jù)中心推向
    的頭像 發(fā)表于 12-24 15:47 ?2204次閱讀
    派<b class='flag-5'>恩</b>杰SiC器件<b class='flag-5'>在數(shù)據(jù)</b>中心中的應(yīng)用

    放在線監(jiān)測(cè)方法的優(yōu)勢(shì)

    放在線監(jiān)測(cè)是應(yīng)用于電力設(shè)備絕緣狀態(tài)的評(píng)估與故障預(yù)防的種技術(shù)方法,相較于常規(guī)監(jiān)測(cè)(如介損測(cè)試、泄漏電流測(cè)試等),局放在線監(jiān)測(cè)在監(jiān)測(cè)方式、實(shí)時(shí)性以及數(shù)據(jù)精度與處理能力,還有對(duì)設(shè)備的影響
    的頭像 發(fā)表于 09-29 11:05 ?498次閱讀

    當(dāng)不同的數(shù)據(jù)放在一個(gè)Flash頁(yè)面上時(shí),請(qǐng)問(wèn)如何在不影響其他數(shù)據(jù)的情況下更改些單獨(dú)的數(shù)據(jù)?

    當(dāng)不同的數(shù)據(jù)放在一個(gè)Flash頁(yè)面上時(shí),如何在不影響其他數(shù)據(jù)的情況下更改些單獨(dú)的數(shù)據(jù)
    發(fā)表于 08-22 06:25

    入行嵌入式應(yīng)該怎么準(zhǔn)備?

    想入行嵌入式該怎么準(zhǔn)備。很能理解大家對(duì)于嵌入式的關(guān)注,嵌入式系統(tǒng)是當(dāng)今科技領(lǐng)域中的重要組成部分,它存在于我們生活的方方面面,各行各業(yè)。智能化時(shí)代的到來(lái)也讓嵌入式技術(shù)炙手可熱! SO,你該學(xué)習(xí)這些
    發(fā)表于 08-06 10:34

    工業(yè)機(jī)器人的特點(diǎn)

    人是實(shí)現(xiàn)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ),也是第步。 三大優(yōu)勢(shì):提高產(chǎn)品品質(zhì)、提高產(chǎn)出、適用范圍廣 機(jī)器人在生產(chǎn)上的優(yōu)勢(shì)可以分為提高產(chǎn)品品質(zhì)、提高產(chǎn)出以及適用范圍廣三個(gè)方面。提高產(chǎn)品品質(zhì) 工業(yè)機(jī)器
    發(fā)表于 07-26 11:22

    邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來(lái)到Medium的這角落。在本文中,我們將把個(gè)機(jī)器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署到邊緣設(shè)備
    的頭像 發(fā)表于 06-11 17:22 ?1016次閱讀
    邊緣計(jì)算中的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門(mén)的引路書(shū)

    的限制和調(diào)控) 本書(shū)還有很多前沿技術(shù)項(xiàng)目的擴(kuò)展 比如神經(jīng)網(wǎng)絡(luò)識(shí)別例程,機(jī)器學(xué)習(xí)圖像識(shí)別的原理,yolo圖像追蹤的原理 機(jī)器學(xué)習(xí)訓(xùn)練三大點(diǎn): 先準(zhǔn)備
    發(fā)表于 04-30 01:05

    SOLIDWORKS 2025教育版有效的數(shù)據(jù)管理與團(tuán)隊(duì)協(xié)作

    在當(dāng)今數(shù)字化時(shí)代,工程設(shè)計(jì)領(lǐng)域?qū)?b class='flag-5'>數(shù)據(jù)管理和團(tuán)隊(duì)協(xié)作的要求日益提高。SOLIDWORKS 2025教育版作為款CAD軟件,以其強(qiáng)大的數(shù)據(jù)管理和團(tuán)隊(duì)
    的頭像 發(fā)表于 04-07 17:28 ?765次閱讀
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>數(shù)據(jù)</b>管理與<b class='flag-5'>團(tuán)隊(duì)</b>協(xié)作

    Raspberry Pi Pico 2 實(shí)現(xiàn):實(shí)時(shí)機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能

    Arm公司的首席軟件工程師SandeepMistry為我們展示了種全新的巧妙方法:在RaspberryPiPico2如何將音頻噪音抑制應(yīng)用于麥克風(fēng)輸入。機(jī)器學(xué)習(xí)(ML)技術(shù)徹底改變
    的頭像 發(fā)表于 03-25 09:46 ?1237次閱讀
    Raspberry Pi Pico 2 <b class='flag-5'>上</b>實(shí)現(xiàn):實(shí)時(shí)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>(ML)音頻噪音抑制功能

    深度解讀英偉達(dá)Newton機(jī)器人平臺(tái):技術(shù)革新與跨界生態(tài)構(gòu)建

    的基礎(chǔ),它使機(jī)器人能夠學(xué)習(xí)如何以更高的精度處理復(fù)雜的任務(wù),與MuJoCo Playground或 NVIDIA Isaac Lab 等學(xué)習(xí)框架兼容,這是
    的頭像 發(fā)表于 03-20 15:15 ?2879次閱讀
    深度解讀英偉<b class='flag-5'>達(dá)</b>Newton<b class='flag-5'>機(jī)器</b>人平臺(tái):技術(shù)革新與跨界生態(tài)構(gòu)建