91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的數(shù)據(jù)準(zhǔn)備,為什么它如此重要

獨(dú)愛72H ? 來源:百家號 ? 作者:百家號 ? 2019-11-11 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:百家號)

自動(dòng)駕駛汽車等基于AI的大規(guī)模技術(shù)革命到構(gòu)建非常簡單的算法,您都需要正確格式的數(shù)據(jù)。實(shí)際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對其進(jìn)行分析以制造出無人駕駛和全自動(dòng)汽車,以確保安全的道路。

收集數(shù)據(jù)之后的下一步是準(zhǔn)備數(shù)據(jù)的過程,這將成為本文的重點(diǎn),并將在后續(xù)部分中詳細(xì)討論。在深入研究數(shù)據(jù)準(zhǔn)備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學(xué)家,您需要了解數(shù)據(jù)準(zhǔn)備的重要性,以實(shí)現(xiàn)模型所需的認(rèn)知能力。

什么是數(shù)據(jù)準(zhǔn)備?數(shù)據(jù)是每個(gè)組織的寶貴資源。但是,如果我們不進(jìn)一步分析該聲明,它可能會否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務(wù)決策,執(zhí)行成功的銷售和營銷活動(dòng)等。但是,這些不能僅用原始數(shù)據(jù)來實(shí)現(xiàn)。

數(shù)據(jù)只有經(jīng)過清洗,貼標(biāo)簽,注釋和準(zhǔn)備后,才能成為寶貴的資源。數(shù)據(jù)經(jīng)過適應(yīng)性測試的各個(gè)階段后,便最終具備進(jìn)行進(jìn)一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。

現(xiàn)在,重要的是您從此信息的分析中收集的見解是準(zhǔn)確且值得信賴的。實(shí)現(xiàn)此輸出的基礎(chǔ)在于數(shù)據(jù)的健康狀況。此外,無論您是構(gòu)建自己的模型還是從第三方那里獲得模型,都必須確保標(biāo)記,擴(kuò)充,干凈,結(jié)構(gòu)化的整個(gè)過程背后的數(shù)據(jù)都經(jīng)過標(biāo)記,概括,即數(shù)據(jù)準(zhǔn)備。

正如Wikipedia所定義的,數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預(yù)處理)為可以方便,準(zhǔn)確地進(jìn)行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)分析項(xiàng)目的第一步,可以包括許多離散任務(wù),例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)交付。

根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機(jī)構(gòu)和最終用戶企業(yè)的響應(yīng),以識別在標(biāo)記,注釋,清理,擴(kuò)充和豐富機(jī)器學(xué)習(xí)模型的數(shù)據(jù)上花費(fèi)了大量時(shí)間。數(shù)據(jù)科學(xué)家80%以上的時(shí)間都花在準(zhǔn)備數(shù)據(jù)上。盡管這是一個(gè)好兆頭,但考慮到隨著良好的數(shù)據(jù)進(jìn)入建立分析模型,準(zhǔn)確的人會得到輸出。但是,理想情況下,數(shù)據(jù)科學(xué)家應(yīng)該將更多的時(shí)間花在與數(shù)據(jù)交互,高級分析,培訓(xùn)和評估模型以及部署到生產(chǎn)上。

只有20%的時(shí)間進(jìn)入流程的主要部分。為了克服時(shí)間限制,組織需要利用用于數(shù)據(jù)工程,標(biāo)記和準(zhǔn)備的專家解決方案來減少在清理,擴(kuò)充,標(biāo)記和豐富數(shù)據(jù)上花費(fèi)的時(shí)間(取決于項(xiàng)目的復(fù)雜性)。這將我們帶入了“垃圾中的垃圾”概念,即輸出的質(zhì)量取決于輸入的質(zhì)量。數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結(jié)構(gòu)化源(如網(wǎng)頁,PDF文檔,假脫機(jī)文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡(luò)中提取信息的過程稱為網(wǎng)絡(luò)刮。

數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質(zhì)量并通過格式帶來結(jié)構(gòu)的過程。這有助于評估質(zhì)量和對特定標(biāo)準(zhǔn)的一致性。當(dāng)數(shù)據(jù)集不平衡且配置不當(dāng)時(shí),大多數(shù)機(jī)器學(xué)習(xí)模型將無法正常工作。數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯(cuò)誤,并提供準(zhǔn)確的信息,因?yàn)樗粌H可以檢測文本和數(shù)字的異常值,還可以檢測圖像中無關(guān)的像素。您可以消除偏見和過時(shí)的信息,以確保您的數(shù)據(jù)是干凈的。

數(shù)據(jù)轉(zhuǎn)換是對數(shù)據(jù)進(jìn)行轉(zhuǎn)換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉(zhuǎn)換有助于對此進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化。數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個(gè)人信息以保護(hù)隱私的過程。數(shù)據(jù)擴(kuò)充用于使可用于訓(xùn)練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。特征工程是將機(jī)器學(xué)習(xí)模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準(zhǔn)確性,您可以將數(shù)據(jù)集合并以將其合并為一個(gè)。

(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器視覺鏡頭如何發(fā)現(xiàn)深海沉船

    這些獵人并不是在航行偶然發(fā)現(xiàn)亨利-史密斯號的。早在發(fā)現(xiàn)和記錄沉船之前,埃利亞松的團(tuán)隊(duì)就必須知道該去哪里找。他們利用地理空間數(shù)據(jù)和磁異常探測來尋找沉船位置的線索,這讓他們在部署聲納后不到 20 分鐘
    發(fā)表于 02-11 16:03

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對這些錯(cuò)誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)
    的頭像 發(fā)表于 01-07 15:37 ?256次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>需避免的 7 個(gè)常見錯(cuò)誤與局限性

    鶴山機(jī)器人項(xiàng)目正式投產(chǎn)

    12月15日上午,位于鶴山市沙坪街道的鶴山市城鄉(xiāng)融合發(fā)展產(chǎn)業(yè)園迎來重要時(shí)刻——鶴山機(jī)器人項(xiàng)目正式投產(chǎn),這一總投資2億元的智能裝備制造項(xiàng)目,將助力鶴山在機(jī)器人產(chǎn)業(yè)賽道加速布局,為區(qū)域
    的頭像 發(fā)表于 12-23 17:20 ?983次閱讀

    量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用

    在傳統(tǒng)機(jī)器學(xué)習(xí)數(shù)據(jù)編碼確實(shí)相對直觀:獨(dú)熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個(gè)過程更像是數(shù)據(jù)清洗,而非核心算法組
    的頭像 發(fā)表于 09-15 10:27 ?827次閱讀
    量子<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門:三種<b class='flag-5'>數(shù)據(jù)</b>編碼方法對比與應(yīng)用

    入行嵌入式應(yīng)該怎么準(zhǔn)備?

    想入行嵌入式該怎么準(zhǔn)備。很能理解大家對于嵌入式的關(guān)注,嵌入式系統(tǒng)是當(dāng)今科技領(lǐng)域中的重要組成部分,存在于我們生活的方方面面,各行各業(yè)。智能化時(shí)代的到來也讓嵌入式技術(shù)炙手可熱! SO,你該學(xué)習(xí)
    發(fā)表于 08-06 10:34

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    FPGA在機(jī)器學(xué)習(xí)的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2967次閱讀

    機(jī)器學(xué)習(xí)異常檢測實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無標(biāo)簽異常檢測系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無監(jiān)督異常檢測作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專門用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境識別異常事件。本文深入探討異常檢測技
    的頭像 發(fā)表于 06-24 11:40 ?1475次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>異常檢測實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無標(biāo)簽異常檢測系統(tǒng)

    使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)
    的頭像 發(fā)表于 05-16 14:48 ?1507次閱讀
    使用MATLAB進(jìn)行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機(jī)器人視覺:從理論到實(shí)踐 第7章詳細(xì)介紹了ROS2在機(jī)器視覺領(lǐng)域的應(yīng)用,涵蓋了相機(jī)標(biāo)定、OpenCV集成、視覺巡線、二維碼識別以及深度學(xué)習(xí)目標(biāo)檢測等內(nèi)容。通過學(xué)習(xí),我認(rèn)識到:
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門的引路書

    的限制和調(diào)控) 本書還有很多前沿技術(shù)項(xiàng)目的擴(kuò)展 比如神經(jīng)網(wǎng)絡(luò)識別例程,機(jī)器學(xué)習(xí)圖像識別的原理,yolo圖像追蹤的原理 機(jī)器學(xué)習(xí)訓(xùn)練三大點(diǎn): 先準(zhǔn)備
    發(fā)表于 04-30 01:05

    網(wǎng)線在機(jī)器人領(lǐng)域如何發(fā)揮重要作用

    機(jī)器人制造領(lǐng)域正經(jīng)歷前所未有的變革,網(wǎng)絡(luò)產(chǎn)品作為連接機(jī)器人內(nèi)部系統(tǒng)與外部環(huán)境的關(guān)鍵紐帶,在機(jī)器視覺、數(shù)據(jù)采集和遠(yuǎn)程控制等環(huán)節(jié)發(fā)揮著決定性作用。本文將從這網(wǎng)線角度,來看看他們在
    的頭像 發(fā)表于 04-27 13:33 ?946次閱讀

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    的知識,還需要對ROS 2的節(jié)點(diǎn)通信和數(shù)據(jù)處理有一定的了解。通過實(shí)踐這一部分內(nèi)容,我掌握了如何在ROS 2實(shí)現(xiàn)二維碼識別,這對于提高機(jī)器人的智能性和交互性具有重要意義。 地圖構(gòu)建:S
    發(fā)表于 04-27 11:42

    電阻率在電子電力學(xué)為何如此重要?

    電阻率是電子學(xué)和材料科學(xué)的一個(gè)基本概念,尤其是在設(shè)計(jì)電路和選擇電子元器件材料時(shí)。它在理解材料在電流作用下的行為扮演著至關(guān)重要的角色。本教程將涵蓋電阻率的定義、測量單位、計(jì)算方法、影響電阻率的因素
    的頭像 發(fā)表于 04-01 10:39 ?2450次閱讀
    電阻率在電子電力學(xué)<b class='flag-5'>中</b>為何<b class='flag-5'>如此</b><b class='flag-5'>重要</b>?

    **【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**

    和更多外設(shè)接口。無論是運(yùn)行還是休眠狀態(tài),功耗表現(xiàn)都非常出色! 3. 在傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的優(yōu)勢? 答:主頻高、功耗低,內(nèi)置專用核處理數(shù)據(jù)
    發(fā)表于 04-01 00:00