91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)的特征預(yù)處理問(wèn)題討論

汽車玩家 ? 來(lái)源:今日頭條 ? 作者:不一樣的程序猿 ? 2020-03-15 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文我們來(lái)討論特征預(yù)處理的相關(guān)問(wèn)題。主要包括特征的歸一化和標(biāo)準(zhǔn)化,異常特征樣本清洗與樣本數(shù)據(jù)不平衡問(wèn)題的處理。

1. 特征的標(biāo)準(zhǔn)化和歸一化

由于標(biāo)準(zhǔn)化和歸一化這兩個(gè)詞經(jīng)常混用,所以本文不再區(qū)別標(biāo)準(zhǔn)化和歸一化,而通過(guò)具體的標(biāo)準(zhǔn)化和歸一化方法來(lái)區(qū)別具體的預(yù)處理操作。

z-score標(biāo)準(zhǔn)化:這是最常見(jiàn)的特征預(yù)處理方式,基本所有的線性模型在擬合的時(shí)候都會(huì)做 z-score標(biāo)準(zhǔn)化。具體的方法是求出樣本特征x的均值mean和標(biāo)準(zhǔn)差std,然后用(x-mean)/std來(lái)代替原特征。這樣特征就變成了均值為0,方差為1了。在sklearn中,我們可以用StandardScaler來(lái)做z-score標(biāo)準(zhǔn)化。當(dāng)然,如果我們是用pandas做數(shù)據(jù)預(yù)處理,可以自己在數(shù)據(jù)框里面減去均值,再除以方差,自己做z-score標(biāo)準(zhǔn)化。

max-min標(biāo)準(zhǔn)化:也稱為離差標(biāo)準(zhǔn)化,預(yù)處理后使特征值映射到[0,1]之間。具體的方法是求出樣本特征x的最大值max和最小值min,然后用(x-min)/(max-min)來(lái)代替原特征。如果我們希望將數(shù)據(jù)映射到任意一個(gè)區(qū)間[a,b],而不是[0,1],那么也很簡(jiǎn)單。用(x-min)(b-a)/(max-min)+a來(lái)代替原特征即可。在sklearn中,我們可以用MinMaxScaler來(lái)做max-min標(biāo)準(zhǔn)化。這種方法的問(wèn)題就是如果測(cè)試集或者預(yù)測(cè)數(shù)據(jù)里的特征有小于min,或者大于max的數(shù)據(jù),會(huì)導(dǎo)致max和min發(fā)生變化,需要重新計(jì)算。所以實(shí)際算法中, 除非你對(duì)特征的取值區(qū)間有需求,否則max-min標(biāo)準(zhǔn)化沒(méi)有 z-score標(biāo)準(zhǔn)化好用。

L1/L2范數(shù)標(biāo)準(zhǔn)化:如果我們只是為了統(tǒng)一量綱,那么通過(guò)L2范數(shù)整體標(biāo)準(zhǔn)化也是可以的,具體方法是求出每個(gè)樣本特征向量

x→的L2范數(shù)||x→||2,然后用x→/||x→||2代替原樣本特征即可。當(dāng)然L1范數(shù)標(biāo)準(zhǔn)化也是可以的,即用x/||x||1

代替原樣本特征。通常情況下,范數(shù)標(biāo)準(zhǔn)化首選L2范數(shù)標(biāo)準(zhǔn)化。在sklearn中,我們可以用Normalizer來(lái)做L1/L2范數(shù)標(biāo)準(zhǔn)化。

此外,經(jīng)常我們還會(huì)用到中心化,主要是在PCA降維的時(shí)候,此時(shí)我們求出特征x的平均值mean后,用x-mean代替原特征,也就是特征的均值變成了0, 但是方差并不改變。這個(gè)很好理解,因?yàn)镻CA就是依賴方差來(lái)降維的。

雖然大部分機(jī)器學(xué)習(xí)模型都需要做標(biāo)準(zhǔn)化和歸一化,也有不少模型可以不做做標(biāo)準(zhǔn)化和歸一化,主要是基于概率分布的模型,比如決策樹(shù)大家族的CART,隨機(jī)森林等。當(dāng)然此時(shí)使用標(biāo)準(zhǔn)化也是可以的,大多數(shù)情況下對(duì)模型的泛化能力也有改進(jìn)。

2. 異常特征樣本清洗

我們?cè)趯?shí)際項(xiàng)目中拿到的數(shù)據(jù)往往有不少異常數(shù)據(jù),有時(shí)候不篩選出這些異常數(shù)據(jù)很可能讓我們后面的數(shù)據(jù)分析模型有很大的偏差。那么如果我們沒(méi)有專業(yè)知識(shí),如何篩選出這些異常特征樣本呢?常用的方法有兩種。

第一種是聚類,比如我們可以用KMeans聚類將訓(xùn)練樣本分成若干個(gè)簇,如果某一個(gè)簇里的樣本數(shù)很少,而且簇質(zhì)心和其他所有的簇都很遠(yuǎn),那么這個(gè)簇里面的樣本極有可能是異常特征樣本了。我們可以將其從訓(xùn)練集過(guò)濾掉。

第二種是異常點(diǎn)檢測(cè)方法,主要是使用iForest或者one class SVM,使用異常點(diǎn)檢測(cè)的機(jī)器學(xué)習(xí)算法來(lái)過(guò)濾所有的異常點(diǎn)。

當(dāng)然,某些篩選出來(lái)的異常樣本是否真的是不需要的異常特征樣本,最好找懂業(yè)務(wù)的再確認(rèn)一下,防止我們將正常的樣本過(guò)濾掉了。

3. 處理不平衡數(shù)據(jù)

這個(gè)問(wèn)題其實(shí)不算特征預(yù)處理的部分,不過(guò)其實(shí)它的實(shí)質(zhì)還是訓(xùn)練集中各個(gè)類別的樣本的特征分布不一致的問(wèn)題,所以這里我們一起講。

我們做分類算法訓(xùn)練時(shí),如果訓(xùn)練集里的各個(gè)類別的樣本數(shù)量不是大約相同的比例,就需要處理樣本不平衡問(wèn)題。也許你會(huì)說(shuō),不處理會(huì)怎么樣呢?如果不處理,那么擬合出來(lái)的模型對(duì)于訓(xùn)練集中少樣本的類別泛化能力會(huì)很差。舉個(gè)例子,我們是一個(gè)二分類問(wèn)題,如果訓(xùn)練集里A類別樣本占90%,B類別樣本占10%。 而測(cè)試集里A類別樣本占50%, B類別樣本占50%, 如果不考慮類別不平衡問(wèn)題,訓(xùn)練出來(lái)的模型對(duì)于類別B的預(yù)測(cè)準(zhǔn)確率會(huì)很低,甚至低于50%。

如何解決這個(gè)問(wèn)題呢?一般是兩種方法:權(quán)重法或者采樣法。

權(quán)重法是比較簡(jiǎn)單的方法,我們可以對(duì)訓(xùn)練集里的每個(gè)類別加一個(gè)權(quán)重class weight。如果該類別的樣本數(shù)多,那么它的權(quán)重就低,反之則權(quán)重就高。如果更細(xì)致點(diǎn),我們還可以對(duì)每個(gè)樣本加權(quán)重sample weight,思路和類別權(quán)重也是一樣,即樣本數(shù)多的類別樣本權(quán)重低,反之樣本權(quán)重高。sklearn中,絕大多數(shù)分類算法都有class weight和 sample weight可以使用。

如果權(quán)重法做了以后發(fā)現(xiàn)預(yù)測(cè)效果還不好,可以考慮采樣法。

采樣法常用的也有兩種思路,一種是對(duì)類別樣本數(shù)多的樣本做子采樣, 比如訓(xùn)練集里A類別樣本占90%,B類別樣本占10%。那么我們可以對(duì)A類的樣本子采樣,直到子采樣得到的A類樣本數(shù)和B類別現(xiàn)有樣本一致為止,這樣我們就只用子采樣得到的A類樣本數(shù)和B類現(xiàn)有樣本一起做訓(xùn)練集擬合模型。第二種思路是對(duì)類別樣本數(shù)少的樣本做過(guò)采樣, 還是上面的例子,我們對(duì)B類別的樣本做過(guò)采樣,直到過(guò)采樣得到的B類別樣本數(shù)加上B類別原來(lái)樣本一起和A類樣本數(shù)一致,最后再去擬合模型。

上述兩種常用的采樣法很簡(jiǎn)單,但是都有個(gè)問(wèn)題,就是采樣后改變了訓(xùn)練集的分布,可能導(dǎo)致泛化能力差。所以有的算法就通過(guò)其他方法來(lái)避免這個(gè)問(wèn)題,比如SMOTE算法通過(guò)人工合成的方法來(lái)生成少類別的樣本。方法也很簡(jiǎn)單,對(duì)于某一個(gè)缺少樣本的類別,它會(huì)隨機(jī)找出幾個(gè)該類別的樣本,再找出最靠近這些樣本的若干個(gè)該類別樣本,組成一個(gè)候選合成集合,然后在這個(gè)集合中不停的選擇距離較近的兩個(gè)樣本(x1,y),(x2,y),在這兩個(gè)樣本之間,比如中點(diǎn),構(gòu)造一個(gè)新的該類別樣本。舉個(gè)例子,比如該類別的候選合成集合有兩個(gè)樣本(x1,y),(x2,y),那么SMOTE采樣后,可以得到一個(gè)新的訓(xùn)練樣本((x1+x2)/2,y),(x1+x22,y),通過(guò)這種方法,我們可以得到不改變訓(xùn)練集分布的新樣本,讓訓(xùn)練集中各個(gè)類別的樣本數(shù)趨于平衡。我們可以用imbalance-learn這個(gè)Python庫(kù)中的SMOTEENN類來(lái)做SMOTE采樣。

4. 結(jié)語(yǔ)

特征工程系列終于寫(xiě)完了,這個(gè)系列的知識(shí)比較零散,更偏向工程方法,所以不像算法那么緊湊,寫(xiě)的也不是很好,希望大家批評(píng)指正。如果有其他好的特征工程方法需要補(bǔ)充的,歡迎留言評(píng)論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒(méi)辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?345次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b>工程:分類變量的數(shù)值化<b class='flag-5'>處理</b>方法

    電能質(zhì)量在線監(jiān)測(cè)裝置如何捕捉充電樁充電過(guò)程中的電流畸變特征?

    電能質(zhì)量在線監(jiān)測(cè)裝置通過(guò) **“硬件精準(zhǔn)采集 - 信號(hào)預(yù)處理 - 定制化算法解析 - 工況自適應(yīng)識(shí)別 - 全周期數(shù)據(jù)追溯”** 的完整閉環(huán),捕捉充電樁充電過(guò)程中非線性電力電子負(fù)載特有的電流畸變特征
    的頭像 發(fā)表于 12-10 10:26 ?401次閱讀
    電能質(zhì)量在線監(jiān)測(cè)裝置如何捕捉充電樁充電過(guò)程中的電流畸變<b class='flag-5'>特征</b>?

    數(shù)據(jù)預(yù)處理軟核加速模塊設(shè)計(jì)

    數(shù)據(jù)拼接操作,其預(yù)處理模塊結(jié)構(gòu)框圖如下圖 模塊最后得到的信號(hào)為ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits圖像數(shù)據(jù),ddr_clk是RAM的出口時(shí)鐘,同時(shí)引出作為下一模塊的數(shù)據(jù)時(shí)鐘,ddr_wrreq置高時(shí)代表有效數(shù)據(jù)。
    發(fā)表于 10-29 08:09

    飛凌嵌入式ElfBoard-Vim編輯器之GCC的基本使用

    /example/hello$ gcc hello.c1.GCC編譯過(guò)程GCC編譯器的編譯過(guò)程要經(jīng)過(guò)預(yù)處理,編譯,匯編,鏈接等4步才能夠生成可執(zhí)行文件。預(yù)處理:主要實(shí)現(xiàn)將頭文件展開(kāi),宏定義替換以及解析
    發(fā)表于 10-16 09:05

    機(jī)器視覺(jué)檢測(cè)PIN針

    : 結(jié)合形態(tài)學(xué)處理、特征提取(如長(zhǎng)寬比、面積)及深度學(xué)習(xí)(針對(duì)復(fù)雜缺陷),自動(dòng)檢出彎曲、斷裂、變形、污染等。輸出與控制:實(shí)時(shí)顯示檢測(cè)結(jié)果(OK/NG)及具體參數(shù)數(shù)值。生成檢測(cè)報(bào)告,支持?jǐn)?shù)據(jù)追溯。NG品自動(dòng)剔除信號(hào)輸出,無(wú)縫對(duì)接產(chǎn)
    發(fā)表于 09-26 15:09

    量子機(jī)器學(xué)習(xí)入門(mén):三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用

    在傳統(tǒng)機(jī)器學(xué)習(xí)中數(shù)據(jù)編碼確實(shí)相對(duì)直觀:獨(dú)熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個(gè)過(guò)程更像是數(shù)據(jù)清洗,而非核心算法組件。量子機(jī)器
    的頭像 發(fā)表于 09-15 10:27 ?781次閱讀
    量子<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門(mén):三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用

    如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)可定位已訓(xùn)練的目標(biāo)類別,并通過(guò)矩形框(邊界框)對(duì)其進(jìn)行標(biāo)識(shí)。 在討論人工智能(AI)或深度學(xué)習(xí)時(shí),經(jīng)常會(huì)出現(xiàn)“神經(jīng)網(wǎng)絡(luò)”、“黑箱”、“標(biāo)注”等術(shù)語(yǔ)。這些概念對(duì)非專業(yè)
    的頭像 發(fā)表于 09-10 17:38 ?909次閱讀
    如何在<b class='flag-5'>機(jī)器</b>視覺(jué)中部署深度<b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    友思特方案 | FPGA 加持,友思特圖像采集卡高速預(yù)處理助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    圖像預(yù)處理是圖像處理關(guān)鍵中間環(huán)節(jié),通過(guò)優(yōu)化傳感器到主機(jī)的數(shù)據(jù)傳輸處理為后續(xù)減負(fù)。其算法依托硬件執(zhí)行,搭載?FPGA?的友思特圖像采集卡以高速運(yùn)算和并行特性縮短處理時(shí)間、降低延遲并提升吞
    的頭像 發(fā)表于 08-20 09:18 ?1096次閱讀
    友思特方案 | FPGA 加持,友思特圖像采集卡高速<b class='flag-5'>預(yù)處理</b>助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    FPGA 加持,友思特圖像采集卡高速預(yù)處理助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    圖像預(yù)處理是圖像處理關(guān)鍵環(huán)節(jié),可優(yōu)化數(shù)據(jù)傳輸、減輕主機(jī)負(fù)擔(dān),其算法可在FPGA等硬件上執(zhí)行。友思特FPGA圖像采集卡憑借FPGA特性,能縮短處理時(shí)間、降低延遲,適用于高速接口及實(shí)時(shí)、大數(shù)據(jù)量場(chǎng)景,可完成多種
    的頭像 發(fā)表于 08-13 17:41 ?1127次閱讀
    FPGA 加持,友思特圖像采集卡高速<b class='flag-5'>預(yù)處理</b>助力視覺(jué)系統(tǒng)運(yùn)行提速增效

    鋰電池制造 | 電芯預(yù)處理工藝的步驟詳解

    電芯預(yù)處理是鋰電池包制造的首要工序,無(wú)論是新能源汽車的續(xù)航穩(wěn)定性,還是儲(chǔ)能系統(tǒng)的循環(huán)壽命,其根基都可追溯至預(yù)處理工序?qū)﹄娦疽恢滦缘陌芽兀浜诵脑谟谕ㄟ^(guò)系統(tǒng)檢測(cè)與篩選消除量產(chǎn)電芯的性能差異,為后續(xù)組裝
    的頭像 發(fā)表于 08-11 14:53 ?1570次閱讀
    鋰電池制造 | 電芯<b class='flag-5'>預(yù)處理</b>工藝的步驟詳解

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無(wú)法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。F
    的頭像 發(fā)表于 07-16 15:34 ?2902次閱讀

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    、深度學(xué)習(xí)視覺(jué)巡線、相機(jī)標(biāo)定、OpenCV圖像處理等。這些內(nèi)容雖然在本次閱讀體驗(yàn)中沒(méi)有詳細(xì)展開(kāi),但它們同樣對(duì)于機(jī)器人的視覺(jué)感知和環(huán)境理解具有重要作用。
    發(fā)表于 04-27 11:42

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過(guò)程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí),網(wǎng)絡(luò)的每個(gè)層都將對(duì)輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)據(jù)中所要表示的規(guī)律。從原理上看,使用深度學(xué)習(xí)
    的頭像 發(fā)表于 04-02 18:21 ?1524次閱讀

    FPGA Verilog HDL語(yǔ)法之編譯預(yù)處理

    Verilog HDL語(yǔ)言和C語(yǔ)言一樣也提供了編譯預(yù)處理的功能?!熬幾g預(yù)處理”是Verilog HDL編譯系統(tǒng)的一個(gè)組成部分。Verilog HDL語(yǔ)言允許在程序中使用幾種特殊的命令(它們不是一般
    的頭像 發(fā)表于 03-27 13:30 ?1444次閱讀
    FPGA Verilog HDL語(yǔ)法之編譯<b class='flag-5'>預(yù)處理</b>

    樹(shù)莓派5 + Hailo AI加速器:工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    本文討論了在工業(yè)自動(dòng)化背景下,開(kāi)發(fā)者利用樹(shù)莓派5和HailoAI加速器進(jìn)行工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路時(shí)遇到的問(wèn)題及解決方案。關(guān)鍵要點(diǎn)包括:1.開(kāi)發(fā)者需求:
    的頭像 發(fā)表于 03-25 09:22 ?1236次閱讀
    樹(shù)莓派5 + Hailo AI加速器:工業(yè)級(jí)數(shù)值數(shù)據(jù)<b class='flag-5'>處理</b>實(shí)戰(zhàn),打通SQLite與<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>全鏈路