91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)特征選擇的三種方法

倩倩 ? 來(lái)源:云溪初閣 ? 2020-04-15 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

特征選擇,這是一個(gè)在機(jī)器學(xué)習(xí)中非常重要的東西,那些好的特征可以從整體上來(lái)提升模型的性能,可以幫助我們更加清晰的理解真?zhèn)€數(shù)據(jù)的特點(diǎn)及底層結(jié)構(gòu),對(duì)于后面的模型,算法有著非常重要的作用。

備注:在很多情況下,特征選擇并非必要的,業(yè)務(wù)特征的選擇有很強(qiáng)烈的業(yè)務(wù)契合度在里面,代表著這些特征在業(yè)務(wù)中的重要性也是很高,如果去掉,很有可能會(huì)有一定的副作用,但是無(wú)法說(shuō)清這個(gè)副作用,這個(gè)需要進(jìn)入到訓(xùn)練中去訓(xùn)練數(shù)據(jù)來(lái)驗(yàn)證這個(gè)效果。

特征選擇作用

這里有些同學(xué)可能是剛開(kāi)始接觸做特征選擇,并不是很了解為什么要做特征選擇,做了有什么作用?是否只是簡(jiǎn)單地減少特征?是否這樣子做了,對(duì)結(jié)果有沒(méi)有影響?

這里每個(gè)人都有自己的理解,小編根據(jù)自己的經(jīng)驗(yàn),總結(jié)有兩個(gè),參考一下:

1、減少特征的數(shù)量,降低維度,這樣子可以在一定程度上加強(qiáng)模型的泛化能力,從而盡可能地減少過(guò)擬合,這里要注意一下:過(guò)擬合只能減少,無(wú)法消滅,好比這個(gè)世上,其實(shí)沒(méi)有最優(yōu)解的一樣,擁有的只有不滿足。

2、在一定程度上降低特征后,從直觀上來(lái)看,很多時(shí)候可以一目了然看到特征與特征值之間的關(guān)聯(lián),這個(gè)場(chǎng)景,需要實(shí)際業(yè)務(wù)的支撐,生產(chǎn)上的業(yè)務(wù)數(shù)據(jù)更加明顯,有興趣的同學(xué)可以私信我加群,一起研究。

特征選擇從何入手

這是一個(gè)非常重要的問(wèn)題,有很多同學(xué)可能剛開(kāi)始接觸或者想往這方面發(fā)展,拿到了一組數(shù)組,很多時(shí)候就是直接拿了一個(gè)算法,直接做分類或者做回歸或者做聚類,但是這樣子正常情況下,數(shù)據(jù)會(huì)存在很多噪音(科普:噪音可以理解為一些垃圾數(shù)據(jù),對(duì)我們的結(jié)果或者期望造成了干擾),這樣子的數(shù)據(jù)不會(huì)很好。

那如果我要特征選擇呢,又不知從何入手?

這里有兩個(gè)方法,可以作為參考:

1、從業(yè)務(wù)范圍分析,直接觀察特征與業(yè)務(wù)的相關(guān)性,這點(diǎn)非常重要,那些對(duì)業(yè)務(wù)有著直接指標(biāo)的數(shù)據(jù),建議保留,否則,可以考慮手動(dòng)刪除掉。

2、從發(fā)散特性分析,這個(gè)很多同學(xué)畢業(yè)后,就忘了這個(gè)東西,簡(jiǎn)單用成語(yǔ)一個(gè)成語(yǔ)來(lái)理解一下:一成不變。如果這個(gè)特征滿足這種條件,那證明不發(fā)散,其實(shí)在數(shù)學(xué)中,用方差來(lái)計(jì)算的,這種不發(fā)散的特征,基本就沒(méi)有什么差異性了,例如某一項(xiàng)特征都是0,怎么有影響呢,這樣子的特征其實(shí)就沒(méi)什么用。

特征選擇的三種方法

進(jìn)行特征選擇的時(shí)候,其實(shí)有一定的方法或者規(guī)律可言,總結(jié)起來(lái)有三個(gè)

1、過(guò)濾法:目前這是小編用的最普遍的方法,因?yàn)樽詈?jiǎn)單,與業(yè)務(wù)契合度最高,操作過(guò)程就是我可以設(shè)定某一個(gè)閾值,然后根據(jù)數(shù)據(jù)的發(fā)散情況或者與業(yè)務(wù)是否相關(guān)來(lái)打分,一般都是當(dāng)?shù)陀谶@個(gè)閾值的時(shí)候,就可以考慮過(guò)濾掉。

2、嵌入法:這個(gè)方法無(wú)法直接從字面來(lái)理解,但是其實(shí)也是很好的東西,小編把它叫做過(guò)濾法的進(jìn)化版。如何理解這個(gè)進(jìn)化版,原先我們采用過(guò)濾法的時(shí)候,很多時(shí)候是人肉直接擼一擼,但是這時(shí)候特征多呢,給你200個(gè)特征,然后我就可能瞎了或者手廢掉了,此時(shí)的做法是此案用機(jī)器學(xué)習(xí)的算法或者模型來(lái)訓(xùn)練,然后可以得到各個(gè)特征的權(quán)重值,做個(gè)排序,干掉那些排序地的,例如樹(shù)的特征選擇,這些算法,后面會(huì)逐一介紹。

3、包裝法:聽(tīng)這個(gè)名字,是不是也是很迷糊,其實(shí)這個(gè)也比較好理解,不斷循環(huán)訓(xùn)練模型,進(jìn)行目標(biāo)函數(shù)的計(jì)算,一般我們是采用預(yù)測(cè)的效果來(lái)評(píng)分,逐一選擇一定量的特征來(lái)做,不斷循環(huán),得到結(jié)果進(jìn)行對(duì)比,這樣就可以看到哪些特征不好。不過(guò)這個(gè)小編比較少用,計(jì)算上比較費(fèi)時(shí)費(fèi)力,后面的具體算法也會(huì)介紹到。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98095
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8554

    瀏覽量

    136996
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒(méi)辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?346次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b>工程:分類變量的數(shù)值化處理<b class='flag-5'>方法</b>

    嵌入式中的浮點(diǎn)型數(shù)據(jù)轉(zhuǎn)換為字節(jié)類型的三種方法

    什么是浮點(diǎn)數(shù) 浮點(diǎn)數(shù)是指一既包含小數(shù)又包含整數(shù)的數(shù)據(jù)類型。 浮點(diǎn)型變量分類 浮點(diǎn)型分為單精度(float型)和雙精度(double型)。浮點(diǎn)型變量使用定義。如下: float a; // 聲明
    發(fā)表于 01-07 06:28

    C語(yǔ)言中實(shí)現(xiàn)函數(shù)宏的三種方式

    ,在 {}、do{...}while(0) 和 ({}) 這三種函數(shù)宏的封裝方式之中,應(yīng)盡可能不使用 {},考慮兼容性一般選擇使用 do{...}while(0),當(dāng)需要函數(shù)宏返回時(shí)可以考慮使用 ({}) 或直接定義函數(shù)。
    發(fā)表于 12-29 07:34

    請(qǐng)問(wèn)CW32芯片的三種工作模式是什么?

    CW32芯片的三種工作模式是什么?
    發(fā)表于 12-26 06:48

    有多少種方法可以進(jìn)行頻響曲線測(cè)量?

    。下面列出APx500軟件包含的至少10種方法都可以進(jìn)行頻響曲線的測(cè)量:FrequencyResponseContinuousSweepAcousticRespo
    的頭像 發(fā)表于 11-14 11:29 ?938次閱讀
    有多少<b class='flag-5'>種方法</b>可以進(jìn)行頻響曲線測(cè)量?

    量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用

    在傳統(tǒng)機(jī)器學(xué)習(xí)中數(shù)據(jù)編碼確實(shí)相對(duì)直觀:獨(dú)熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個(gè)過(guò)程更像是數(shù)據(jù)清洗,而非核心算法組件。量子機(jī)器學(xué)習(xí)的編碼完全是另一回事。傳統(tǒng)算
    的頭像 發(fā)表于 09-15 10:27 ?785次閱讀
    量子<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門:<b class='flag-5'>三種數(shù)據(jù)編碼方法</b>對(duì)比與應(yīng)用

    MEMS中的三種測(cè)溫方式

    在集成MEMS芯片的環(huán)境溫度測(cè)量領(lǐng)域,熱阻、熱電堆和PN結(jié)原理是三種主流技術(shù)。熱阻是利用熱敏電阻,如金屬鉑或注入硅的溫度電阻系數(shù)恒定,即電阻隨溫度線性變化的特性測(cè)溫,電阻變化直接對(duì)應(yīng)絕對(duì)溫度,需恒流源供電。
    的頭像 發(fā)表于 07-16 13:58 ?1679次閱讀
    MEMS中的<b class='flag-5'>三種</b>測(cè)溫方式

    介紹三種常見(jiàn)的MySQL高可用方案

    在生產(chǎn)環(huán)境中,為了確保數(shù)據(jù)庫(kù)系統(tǒng)的連續(xù)可用性、降低故障恢復(fù)時(shí)間以及實(shí)現(xiàn)業(yè)務(wù)的無(wú)縫切換,高可用(High Availability, HA)方案至關(guān)重要。本文將詳細(xì)介紹三種常見(jiàn)的 MySQL 高可用
    的頭像 發(fā)表于 05-28 17:16 ?1257次閱讀

    精選好文!噪聲系數(shù)測(cè)量的三種方法

    器件噪聲系數(shù)的三種方法。每種方法都有其優(yōu)缺點(diǎn),適用于特定的應(yīng)用。下表是三種方法優(yōu)缺點(diǎn)的總結(jié)。理論上,同一個(gè)射頻器件的測(cè)量結(jié)果應(yīng)該一樣,但是由于射頻設(shè)備的限制(可用性、精度、頻率范圍、噪聲基底等),必須
    發(fā)表于 05-07 10:18

    雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載

      本文檔的主要內(nèi)容詳細(xì)介紹的是雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載包括了:共集電極放大電路,共基極放大電路,三種基本組態(tài)的比較   輸入信號(hào)ui
    發(fā)表于 04-11 16:39 ?37次下載

    redis三種集群方案詳解

    在Redis中提供的集群方案總共有三種(一般一個(gè)redis節(jié)點(diǎn)不超過(guò)10G內(nèi)存)。
    的頭像 發(fā)表于 03-31 10:46 ?1541次閱讀
    redis<b class='flag-5'>三種</b>集群方案詳解

    CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?

    在我用photodiode工具選型I/V放大電路的時(shí)候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請(qǐng)教下用于光電信號(hào)放大轉(zhuǎn)換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?
    發(fā)表于 03-25 06:23

    圖騰柱無(wú)橋PFC(功率因數(shù)校正)電路的三種閉環(huán)控制方法

    高效能圖騰柱無(wú)橋PFC閉環(huán)控制方案——為EE工程師量身打造的革新設(shè)計(jì) *附件:圖騰柱無(wú)橋PFC(功率因數(shù)校正)電路的三種閉環(huán)控制方法.pdf 在服務(wù)器和數(shù)據(jù)中心等高功率密度場(chǎng)景中, 圖騰柱無(wú)橋PFC
    的頭像 發(fā)表于 03-24 20:53 ?2615次閱讀

    介紹三種數(shù)據(jù)保護(hù)策略的特點(diǎn)與適用場(chǎng)景

    在企業(yè)IT環(huán)境中,數(shù)據(jù)保護(hù)是不可忽視的重要環(huán)節(jié),而復(fù)制(Replication)、快照(Snapshot)和備份(Backup)是三種常見(jiàn)的策略。它們?cè)跀?shù)據(jù)恢復(fù)、業(yè)務(wù)連續(xù)性以及災(zāi)難恢復(fù)中扮演著不同的角色,但很多企業(yè)在選擇數(shù)據(jù)保護(hù)方案時(shí),往往不清楚
    的頭像 發(fā)表于 03-21 11:46 ?1534次閱讀

    GaN、超級(jí)SI、SiC這三種MOS器件的用途區(qū)別

    如果想要說(shuō)明白GaN、超級(jí)SI、SiC這三種MOS器件的用途區(qū)別,首先要做的是搞清楚這三種功率器件的特性,然后再根據(jù)材料特性分析具體應(yīng)用。
    的頭像 發(fā)表于 03-14 18:05 ?2737次閱讀