(文章來源:百家號)
從自動(dòng)駕駛汽車等基于AI的大規(guī)模技術(shù)革命到構(gòu)建非常簡單的算法,您都需要正確格式的數(shù)據(jù)。實(shí)際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數(shù)據(jù),并對其進(jìn)行分析以制造出無人駕駛和全自動(dòng)汽車,以確保安全的道路。
收集數(shù)據(jù)之后的下一步是準(zhǔn)備數(shù)據(jù)的過程,這將成為本文的重點(diǎn),并將在后續(xù)部分中詳細(xì)討論。在深入研究數(shù)據(jù)準(zhǔn)備過程的概念之前,讓我們首先了解其含義。作為基于AI創(chuàng)新的大腦的數(shù)據(jù)科學(xué)家,您需要了解數(shù)據(jù)準(zhǔn)備的重要性,以實(shí)現(xiàn)模型所需的認(rèn)知能力。
什么是數(shù)據(jù)準(zhǔn)備?數(shù)據(jù)是每個(gè)組織的寶貴資源。但是,如果我們不進(jìn)一步分析該聲明,它可能會否定自己。 企業(yè)將數(shù)據(jù)用于各種目的。從廣義上講,它用于制定明智的業(yè)務(wù)決策,執(zhí)行成功的銷售和營銷活動(dòng)等。但是,這些不能僅用原始數(shù)據(jù)來實(shí)現(xiàn)。
數(shù)據(jù)只有經(jīng)過清洗,貼標(biāo)簽,注釋和準(zhǔn)備后,才能成為寶貴的資源。數(shù)據(jù)經(jīng)過適應(yīng)性測試的各個(gè)階段后,便最終具備進(jìn)行進(jìn)一步處理的資格。處理可以采用多種方法-將數(shù)據(jù)提取到BI工具,CRM數(shù)據(jù)庫,開發(fā)用于分析模型的算法,數(shù)據(jù)管理工具等。
現(xiàn)在,重要的是您從此信息的分析中收集的見解是準(zhǔn)確且值得信賴的。實(shí)現(xiàn)此輸出的基礎(chǔ)在于數(shù)據(jù)的健康狀況。此外,無論您是構(gòu)建自己的模型還是從第三方那里獲得模型,都必須確保標(biāo)記,擴(kuò)充,干凈,結(jié)構(gòu)化的整個(gè)過程背后的數(shù)據(jù)都經(jīng)過標(biāo)記,概括,即數(shù)據(jù)準(zhǔn)備。
正如Wikipedia所定義的,數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)(可能來自不同的數(shù)據(jù)源)操縱(或預(yù)處理)為可以方便,準(zhǔn)確地進(jìn)行分析的形式的行為,例如出于商業(yè)目的。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)分析項(xiàng)目的第一步,可以包括許多離散任務(wù),例如加載數(shù)據(jù)或數(shù)據(jù)攝取,數(shù)據(jù)融合,數(shù)據(jù)清理,數(shù)據(jù)擴(kuò)充和數(shù)據(jù)交付。
根據(jù)Cognilytica的最新研究,其中記錄并分析了組織,機(jī)構(gòu)和最終用戶企業(yè)的響應(yīng),以識別在標(biāo)記,注釋,清理,擴(kuò)充和豐富機(jī)器學(xué)習(xí)模型的數(shù)據(jù)上花費(fèi)了大量時(shí)間。數(shù)據(jù)科學(xué)家80%以上的時(shí)間都花在準(zhǔn)備數(shù)據(jù)上。盡管這是一個(gè)好兆頭,但考慮到隨著良好的數(shù)據(jù)進(jìn)入建立分析模型,準(zhǔn)確的人會得到輸出。但是,理想情況下,數(shù)據(jù)科學(xué)家應(yīng)該將更多的時(shí)間花在與數(shù)據(jù)交互,高級分析,培訓(xùn)和評估模型以及部署到生產(chǎn)上。
只有20%的時(shí)間進(jìn)入流程的主要部分。為了克服時(shí)間限制,組織需要利用用于數(shù)據(jù)工程,標(biāo)記和準(zhǔn)備的專家解決方案來減少在清理,擴(kuò)充,標(biāo)記和豐富數(shù)據(jù)上花費(fèi)的時(shí)間(取決于項(xiàng)目的復(fù)雜性)。這將我們帶入了“垃圾中的垃圾”概念,即輸出的質(zhì)量取決于輸入的質(zhì)量。數(shù)據(jù)提取數(shù)據(jù)工作流程的第一階段是提取過程,通常是從非結(jié)構(gòu)化源(如網(wǎng)頁,PDF文檔,假脫機(jī)文件,電子郵件等)中檢索數(shù)據(jù)。部署從網(wǎng)絡(luò)中提取信息的過程稱為網(wǎng)絡(luò)刮。
數(shù)據(jù)概要分析是檢查現(xiàn)有數(shù)據(jù)以提高質(zhì)量并通過格式帶來結(jié)構(gòu)的過程。這有助于評估質(zhì)量和對特定標(biāo)準(zhǔn)的一致性。當(dāng)數(shù)據(jù)集不平衡且配置不當(dāng)時(shí),大多數(shù)機(jī)器學(xué)習(xí)模型將無法正常工作。數(shù)據(jù)清理可確保數(shù)據(jù)干凈,全面,無錯(cuò)誤,并提供準(zhǔn)確的信息,因?yàn)樗粌H可以檢測文本和數(shù)字的異常值,還可以檢測圖像中無關(guān)的像素。您可以消除偏見和過時(shí)的信息,以確保您的數(shù)據(jù)是干凈的。
數(shù)據(jù)轉(zhuǎn)換是對數(shù)據(jù)進(jìn)行轉(zhuǎn)換以使其均勻。地址,名稱和其他字段類型之類的數(shù)據(jù)以不同的格式表示,數(shù)據(jù)轉(zhuǎn)換有助于對此進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化。數(shù)據(jù)匿名化是從數(shù)據(jù)集中刪除或加密個(gè)人信息以保護(hù)隱私的過程。數(shù)據(jù)擴(kuò)充用于使可用于訓(xùn)練模型的數(shù)據(jù)多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
數(shù)據(jù)采樣識別大型數(shù)據(jù)集中的代表性子集,以分析和處理數(shù)據(jù)。特征工程是將機(jī)器學(xué)習(xí)模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準(zhǔn)確性,您可以將數(shù)據(jù)集合并以將其合并為一個(gè)。
(責(zé)任編輯:fqj)
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7342瀏覽量
94909 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8558瀏覽量
137078
發(fā)布評論請先 登錄
機(jī)器視覺鏡頭如何發(fā)現(xiàn)深海沉船
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性
鶴山它人機(jī)器人項(xiàng)目正式投產(chǎn)
量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用
入行嵌入式應(yīng)該怎么準(zhǔn)備?
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
機(jī)器學(xué)習(xí)異常檢測實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無標(biāo)簽異常檢測系統(tǒng)
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門的引路書
網(wǎng)線在機(jī)器人領(lǐng)域如何發(fā)揮重要作用
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例
電阻率在電子電力學(xué)中為何如此重要?
機(jī)器學(xué)習(xí)中的數(shù)據(jù)準(zhǔn)備,為什么它如此重要
評論