91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

哪些特征工程技術(shù)可以改善機(jī)器學(xué)習(xí)預(yù)測(cè)?

穎脈Imgtec ? 2024-07-30 08:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機(jī)器學(xué)習(xí)方面,人們可以采取的改進(jìn) ML 模型預(yù)測(cè)的方法是選擇正確的特征并刪除對(duì)模型性能影響微不足道的特征。因此,選擇正確的特征可能是數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師需要做的最重要的步驟之一,他們通常負(fù)責(zé)構(gòu)建那些能夠很好地概括測(cè)試數(shù)據(jù)集的復(fù)雜模型。

例如,考慮預(yù)測(cè)一個(gè)人是否會(huì)患心臟病的任務(wù),可以產(chǎn)生良好影響的最強(qiáng)指標(biāo)之一就是體重指數(shù) (BMI)。當(dāng)我們?cè)噲D預(yù)測(cè)一個(gè)人可能患有的血壓 (BP) 水平時(shí),沒有考慮這個(gè)特征并且沒有在我們的數(shù)據(jù)集中使用它,通常會(huì)導(dǎo)致結(jié)果不太準(zhǔn)確。在這種情況下,BMI 可以強(qiáng)烈表明一個(gè)人患有這些疾病。因此,考慮這個(gè)特征很重要,因?yàn)樗鼤?huì)對(duì)結(jié)果產(chǎn)生很大的影響。

考慮另一個(gè)預(yù)測(cè)某人是否會(huì)拖欠貸款的案例研究。在向某人提供貸款之前,所考慮的銀行會(huì)詢問(wèn)一系列問(wèn)題,例如工資、凈資產(chǎn)和他們的信用記錄。如果我們要讓一個(gè)人根據(jù)上述一系列因素來(lái)決定是否必須向某人提供貸款,他/她會(huì)查看總工資和他們的整體信用記錄。

同樣,當(dāng)數(shù)據(jù)以與人類相同的方式提供給 ML 模型時(shí),它會(huì)學(xué)會(huì)獲得重要的表示,以便它決定一個(gè)人是否會(huì)償還貸款。如果我們刪除諸如工資之類的特征,ML 模型將缺少關(guān)鍵信息,無(wú)法完美地解讀一個(gè)人是否會(huì)償還貸款。因此,它的預(yù)測(cè)可能會(huì)非常錯(cuò)誤,因?yàn)閿?shù)據(jù)中缺少最重要的特征之一(工資)。因此,這凸顯了擁有正確的特征對(duì)于我們的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在測(cè)試集和實(shí)時(shí)數(shù)據(jù)上表現(xiàn)良好的重要性。

現(xiàn)在我們已經(jīng)了解了確定正確特征對(duì)于確定模型預(yù)測(cè)質(zhì)量的重要性,我們現(xiàn)在將繼續(xù)尋找有助于我們的模型預(yù)測(cè)并改善其結(jié)果的各種特征化技術(shù)。


插值

這是我們?cè)跀?shù)據(jù)中填充缺失值的一種方法。我們?cè)诨ヂ?lián)網(wǎng)上找到了大量數(shù)據(jù)集,例如包含幾乎所有特征和標(biāo)簽而沒有異?;蛉笔?shù)據(jù)的玩具數(shù)據(jù)集。然而,這在現(xiàn)實(shí)生活中可能遠(yuǎn)非如此,因?yàn)榇蠖鄶?shù)現(xiàn)實(shí)世界數(shù)據(jù)都包含缺失值。因此,必須采取特定步驟來(lái)確保以某種方式填充缺失的值。

我們可以使用各種方法來(lái)執(zhí)行插值。我們可以使用特征的平均值或平均值來(lái)填充缺失值。還有其他方法,例如特征的中位數(shù)插值和眾數(shù)插值。因此,通過(guò)執(zhí)行這些方法,我們不會(huì)得到包含缺失值的數(shù)據(jù)。

如果我們要預(yù)測(cè)一個(gè)人是否會(huì)拖欠貸款,我們會(huì)將薪水作為我們機(jī)器學(xué)習(xí)模型的重要特征之一。但是,所有參與者的薪水信息可能不存在于我們的數(shù)據(jù)中。因此,最好的方法之一是分別用整個(gè)薪資特征的平均值來(lái)估算或填充這些缺失值。


縮放我們傾向于為我們的模型提供一組不同的特征,基于此,模型將確定用于預(yù)測(cè)結(jié)果或目標(biāo)變量的最佳特征。但需要注意的是,我們使用的特征在我們最初收到數(shù)據(jù)時(shí)可能具有不同的尺度。

以用于確定房?jī)r(jià)的特征為例。在這種情況下,特征可能是臥室數(shù)量和利率。我們無(wú)法比較這兩個(gè)特征,因?yàn)榕P室數(shù)量以單位為單位,而利率以美元 ($) 為單位。如果我們將這些數(shù)據(jù)提供給我們的 ML 模型,它只會(huì)理解美元比臥室數(shù)量特征高出很多單位。然而,正如我們上面所看到的,這遠(yuǎn)非事實(shí)。因此,在將特征提供給模型進(jìn)行預(yù)測(cè)之前,執(zhí)行特征的縮放操作非常重要。


歸一化這是我們執(zhí)行縮放操作的一種方式,在轉(zhuǎn)換數(shù)據(jù)中的其他值之前,先對(duì)所考慮的各個(gè)特征取最大值和最小值。我們確保特征的最小值為 0,最大值為 1。這將確保我們能夠使用模型產(chǎn)生最佳結(jié)果并獲得良好的預(yù)測(cè)。以客戶是否會(huì)流失(離開)或繼續(xù)使用互聯(lián)網(wǎng)服務(wù)為例,月費(fèi)和使用期限等特征是一些重要特征。月費(fèi)可以以美元 ($) 為單位,而使用期限可以以年或月為單位。由于它們的規(guī)模不同,因此規(guī)范化在這種情況下非常方便,并確保我們獲得最佳的模型預(yù)測(cè)。


標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化在轉(zhuǎn)換特征方面與規(guī)范化類似,不同之處在于我們以這樣一種方式轉(zhuǎn)換數(shù)據(jù),即我們得到一個(gè)輸出,該輸出對(duì)于每個(gè)單獨(dú)的特征都具有單位方差和零均值。我們已經(jīng)看到,對(duì)各種特征使用不同的尺度常常會(huì)使模型感到困惑,因?yàn)槟P蜁?huì)因?yàn)閿?shù)據(jù)的尺度而假設(shè)一個(gè)特征比另一個(gè)特征更重要,執(zhí)行標(biāo)準(zhǔn)化操作有助于確保我們獲得最佳預(yù)測(cè)。因此,這是機(jī)器學(xué)習(xí)從業(yè)者在構(gòu)建最佳預(yù)測(cè)時(shí)經(jīng)常采取的一步。

在預(yù)測(cè)汽車價(jià)格時(shí),我們會(huì)分別考慮氣缸數(shù)和里程數(shù)等特征。由于這兩個(gè)特征的尺度不同,我們必須執(zhí)行標(biāo)準(zhǔn)化,以便在給出預(yù)測(cè)模型之前,我們可以在特征之間找到共同點(diǎn)。


獨(dú)熱編碼想象一個(gè)場(chǎng)景,我們的數(shù)據(jù)中有大量分類特征。我們數(shù)據(jù)中的一些分類特征可以包括國(guó)家、州、名稱等特征。從這些特征中,我們看到,我們只生成這些實(shí)例的出現(xiàn),而沒有得到數(shù)字表示。為了使我們的 ML 模型能夠很好地工作并利用數(shù)據(jù),分類特征(如上所示)應(yīng)該轉(zhuǎn)換為數(shù)字特征,以便模型執(zhí)行計(jì)算。因此,我們執(zhí)行這一步獨(dú)熱編碼,以便將分類特征轉(zhuǎn)換為數(shù)字特征?,F(xiàn)在人們可能會(huì)質(zhì)疑算法實(shí)際上是如何做到這一點(diǎn)的。它只是將每個(gè)特征的每個(gè)類別視為單獨(dú)的列。特定類別的存在或不存在將被標(biāo)記為 1 或 0。如果我們發(fā)現(xiàn)特定類別存在,反之亦然,我們將值設(shè)為 1。


響應(yīng)編碼這是另一種與獨(dú)熱編碼非常相似的方法,因?yàn)樗梢蕴幚矸诸悢?shù)據(jù)。但是,將分類特征轉(zhuǎn)換為數(shù)值特征的過(guò)程與之前的方法不同。在響應(yīng)編碼中,我們最感興趣的是每個(gè)類別的目標(biāo)平均值。例如,以確定房?jī)r(jià)為例。為了預(yù)測(cè)各個(gè)地區(qū)的房?jī)r(jià),我們將對(duì)各個(gè)地區(qū)進(jìn)行分組,并找出每個(gè)地區(qū)的平均房?jī)r(jià)。稍后,我們將用每個(gè)地區(qū)特定的平均房?jī)r(jià)替換地區(qū),以表示先前作為分類特征的數(shù)值。因此,我們的模型可以固有地了解社區(qū)在確定房?jī)r(jià)方面有多大影響。因此,響應(yīng)編碼在這種情況下非常方便。考慮到預(yù)測(cè)汽車價(jià)格的問(wèn)題,可能會(huì)有 SUV 或轎車等汽車。有時(shí)可以通過(guò)這兩個(gè)特征來(lái)確定價(jià)格。因此,當(dāng)使用響應(yīng)編碼轉(zhuǎn)換此分類特征(汽車類型)時(shí),響應(yīng)編碼會(huì)很有用。我們僅取 SUV 和轎車的平均價(jià)格。如果車型為 SUV,我們將其替換為 SUV 車型細(xì)分市場(chǎng)的平均價(jià)格。如果車型為轎車,我們將其替換為轎車車型細(xì)分市場(chǎng)的平均價(jià)格。


處理異常值異常值是被視為數(shù)據(jù)異常的數(shù)據(jù)點(diǎn)。但是,還需要注意的是,數(shù)據(jù)中的某些異常值對(duì)于模型正確確定結(jié)果非常有用且重要。如果我們發(fā)現(xiàn)數(shù)據(jù)中存在大量異常值,則可能會(huì)使模型無(wú)法對(duì)異常值做出正確的預(yù)測(cè),而無(wú)法很好地概括實(shí)時(shí)數(shù)據(jù)。因此,我們必須采取正確的步驟,確保在訓(xùn)練模型并將其投入生產(chǎn)之前將其移除。有多種方法可以去除數(shù)據(jù)中的異常值。其中一些方法包括找到每個(gè)特征的標(biāo)準(zhǔn)差。如果數(shù)據(jù)點(diǎn)高于或低于平均值 3 個(gè)標(biāo)準(zhǔn)差,我們可以自動(dòng)將它們歸類為異常值并將其移除,這樣它們就不會(huì)影響機(jī)器學(xué)習(xí)模型的預(yù)測(cè)。

考慮到一個(gè)人是否會(huì)拖欠貸款,可能會(huì)有關(guān)于此人工資的信息。薪資信息可能并不總是準(zhǔn)確的,并且這個(gè)特征中可能存在相當(dāng)多的異常值。使用這些數(shù)據(jù)訓(xùn)練我們的 ML 模型通常會(huì)導(dǎo)致它在測(cè)試集或未見過(guò)的數(shù)據(jù)上表現(xiàn)不佳。因此,最好的方法是在將數(shù)據(jù)提供給 ML 模型之前從數(shù)據(jù)中刪除異常值。這可以通過(guò)了解薪資的標(biāo)準(zhǔn)差來(lái)實(shí)現(xiàn),并且高于或低于 3 個(gè)標(biāo)準(zhǔn)差的值會(huì)自動(dòng)被刪除,以便模型做出可靠的預(yù)測(cè)。


對(duì)數(shù)轉(zhuǎn)換

當(dāng)我們發(fā)現(xiàn)數(shù)據(jù)中存在嚴(yán)重偏差時(shí),可以使用這種技術(shù)。如果存在大量偏差,即數(shù)據(jù)包含大量集中在特定區(qū)域的值,而一些異常值和數(shù)據(jù)點(diǎn)遠(yuǎn)離平均值,則我們的模型更有可能無(wú)法理解這種復(fù)雜的關(guān)系。

因此,我們將使用對(duì)數(shù)變換來(lái)轉(zhuǎn)換這些數(shù)據(jù)并減少偏差,以便模型對(duì)異常值更具魯棒性,并且能夠很好地概括實(shí)時(shí)數(shù)據(jù)。對(duì)數(shù)變換可以是一種方便的特征工程技術(shù),可以分別提高 ML 模型的性能。

與上述預(yù)測(cè)一個(gè)人是否會(huì)拖欠貸款的問(wèn)題類似,我們也可以將對(duì)數(shù)變換應(yīng)用于工資,因?yàn)槲覀兛吹焦べY信息中普遍存在很多偏差。大量人(約 80%)獲得基本工資,而一小部分人(約 20%)獲得大量工資。數(shù)據(jù)中存在相當(dāng)大的偏差,實(shí)際上可以通過(guò)使用對(duì)數(shù)變換來(lái)消除。


結(jié)論讀完這篇文章后,我相信您能夠理解對(duì)您的機(jī)器學(xué)習(xí)模型很重要的各種特征工程技術(shù)。在正確的時(shí)間使用最佳的特征工程技術(shù)確實(shí)非常方便,并且可以通過(guò)使用人工智能為公司生成有價(jià)值的預(yù)測(cè)。

來(lái)源:PyTorch研習(xí)社

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1818

    文章

    50129

    瀏覽量

    265710
  • 數(shù)據(jù)模型
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    10322
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8556

    瀏覽量

    137038
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學(xué)科的技能,涵蓋數(shù)學(xué)基礎(chǔ)、編程能力、算法理論、工程實(shí)踐以及業(yè)務(wù)理解等多個(gè)方面。 以下是具體技能及學(xué)習(xí)建議: 線性代數(shù)核心內(nèi)容:矩陣運(yùn)算、特征值分解、向量空間等
    發(fā)表于 02-27 10:53

    有為信息通過(guò)2025年度廣東省工程技術(shù)研究中心認(rèn)定

    近日,廣東省科學(xué)技術(shù)廳正式發(fā)布2025年度廣東省工程技術(shù)研究中心認(rèn)定名單,我司申報(bào)的“廣東省北斗車載智能體工程技術(shù)研究中心”成功獲批。我司在科研平臺(tái)建設(shè)方面斬獲的這一重要省級(jí)資質(zhì),標(biāo)志著公司在
    的頭像 發(fā)表于 02-26 11:41 ?466次閱讀

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?359次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分類變量的數(shù)值化處理方法

    深圳廣電計(jì)量通過(guò)2025年度廣東省工程技術(shù)研究中心認(rèn)定

    近日,廣東省科學(xué)技術(shù)廳正式公布2025年度廣東省工程技術(shù)研究中心認(rèn)定名單。由廣電計(jì)量檢測(cè)(深圳)有限公司(簡(jiǎn)稱深圳廣電計(jì)量)建設(shè)的“廣東省新能源汽車電池及零部件檢測(cè)工程技術(shù)研究中心”(簡(jiǎn)稱“中心”)成功通過(guò)認(rèn)定。
    的頭像 發(fā)表于 02-09 17:33 ?1143次閱讀

    寶龍達(dá)入選2025年度廣東省工程技術(shù)研究中心

    廣東省科學(xué)技術(shù)廳公示 2025 年度廣東省工程技術(shù)研究中心擬認(rèn)定名單,深圳寶龍達(dá)信息技術(shù)股份有限公司成功獲批組建 “廣東省智能信息技術(shù)產(chǎn)品研發(fā)與制造
    的頭像 發(fā)表于 01-29 11:41 ?726次閱讀

    科明環(huán)境儀器工業(yè)入選2025年度廣東省工程技術(shù)研究中心

    近日,廣東省科學(xué)技術(shù)廳正式公示了《2025年度廣東省工程技術(shù)研究中心擬認(rèn)定名單》。這不僅僅是一份包含478家創(chuàng)新主體的名單,更是衡量廣東省產(chǎn)業(yè)科技創(chuàng)新含金量的一把“標(biāo)尺”。
    的頭像 發(fā)表于 01-27 16:26 ?952次閱讀

    喜報(bào)!深視智能成功入選“廣東省工程技術(shù)研究中心”名單

    近日,廣東省科學(xué)技術(shù)廳正式公示2025年度擬認(rèn)定的廣東省工程技術(shù)研究中心名單。由深圳市深視智能科技有限公司(以下簡(jiǎn)稱“深視智能”)依托建設(shè)的“廣東省工業(yè)傳感器工程技術(shù)研究中心”成功入選,標(biāo)志著公司在
    的頭像 發(fā)表于 01-26 08:20 ?409次閱讀
    喜報(bào)!深視智能成功入選“廣東省<b class='flag-5'>工程技術(shù)</b>研究中心”名單

    中科曙光獲批建設(shè)鄭州市工業(yè)數(shù)據(jù)智能工程技術(shù)研究中心

    近日,鄭州市科學(xué)技術(shù)局正式下發(fā)《鄭州市科學(xué)技術(shù)局關(guān)于同意建設(shè)2025年鄭州市工程技術(shù)研究中心的通知》,由曙光云參股合資公司鄭州曙光云科技有限公司(以下簡(jiǎn)稱“鄭州曙光云”)聯(lián)合河南省三軟煤層開采
    的頭像 發(fā)表于 01-21 13:07 ?734次閱讀

    翠展微電子與上海工程技術(shù)大學(xué)深化校企合作

    繼11月初首輪合作洽談后,校企雙方互動(dòng)持續(xù)升溫。11月13日,上海工程技術(shù)大學(xué)材料學(xué)院李軍院長(zhǎng)、張艷副院長(zhǎng),電子封裝系郭隱犇主任及就業(yè)主任元靜老師一行,蒞臨翠展微電子參觀交流。校方團(tuán)隊(duì)實(shí)地考察了我司
    的頭像 發(fā)表于 12-05 10:01 ?1413次閱讀

    開源鴻蒙技術(shù)大會(huì)2025丨應(yīng)用開發(fā)工程技術(shù)分論壇:詮釋應(yīng)用開發(fā)全鏈路技術(shù),共探AI與大模型賦能新范式

    9月27日,開源鴻蒙技術(shù)大會(huì)2025應(yīng)用開發(fā)工程技術(shù)分論壇在長(zhǎng)沙圓滿舉辦。本次分論壇由開源鴻蒙應(yīng)用開發(fā)工程技術(shù)TSG主任任晗擔(dān)任出品人,聚焦“應(yīng)用開發(fā)工程技術(shù)的創(chuàng)新與實(shí)踐”,共同探討開
    的頭像 發(fā)表于 11-10 18:20 ?1496次閱讀
    開源鴻蒙<b class='flag-5'>技術(shù)</b>大會(huì)2025丨應(yīng)用開發(fā)<b class='flag-5'>工程技術(shù)</b>分論壇:詮釋應(yīng)用開發(fā)全鏈路<b class='flag-5'>技術(shù)</b>,共探AI與大模型賦能新范式

    上海工程技術(shù)大學(xué)采購(gòu)南京大展的新品導(dǎo)熱系數(shù)儀

    。上海工程技術(shù)大學(xué)為了提升研究和實(shí)驗(yàn)的整體水平,經(jīng)過(guò)前期的對(duì)比,選購(gòu)了南京大展的新品DZDR-AS導(dǎo)熱系數(shù)儀,這款儀器不僅可以測(cè)量導(dǎo)熱系數(shù),同時(shí)還可以測(cè)熱阻、比熱容
    的頭像 發(fā)表于 10-10 13:51 ?605次閱讀
    上海<b class='flag-5'>工程技術(shù)</b>大學(xué)采購(gòu)南京大展的新品導(dǎo)熱系數(shù)儀

    國(guó)星光電入選2025年度佛山市工程技術(shù)研究中心

    9月3日,佛山市科學(xué)技術(shù)局發(fā)布關(guān)于認(rèn)定2025年度佛山市工程技術(shù)研究中心的通知,國(guó)星光電申報(bào)的“佛山市智能光電子器件工程技術(shù)研究中心”順利通過(guò)認(rèn)定,入選市級(jí)工程技術(shù)研究中心。
    的頭像 發(fā)表于 09-06 11:55 ?1381次閱讀

    泰威電子榮獲東莞市工程技術(shù)研究中心認(rèn)定

    近日,泰威公司憑借在連接器及模具領(lǐng)域的深厚積累與突出創(chuàng)新能力,正式通過(guò)東莞市科學(xué)技術(shù)局組織的評(píng)審,被認(rèn)定為“東莞市工程技術(shù)研究中心”。
    的頭像 發(fā)表于 08-12 09:18 ?2444次閱讀

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    實(shí)踐。 為開源項(xiàng)目貢獻(xiàn)代碼或者文檔。比如,幫助完善一個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集的加載模塊的代碼,或者撰寫某個(gè)AI算法的使用說(shuō)明文檔。這不僅可以提升自己的技術(shù)能力,還能在AI社區(qū)中建立自己的聲譽(yù)。
    發(fā)表于 07-08 17:44

    英特爾宣布工程技術(shù)領(lǐng)導(dǎo)層重要任命,加速CEO陳立武轉(zhuǎn)型布局

    新的任命符合公司以客戶交付為焦點(diǎn)、以工程技術(shù)創(chuàng)新為核心的戰(zhàn)略方向。 美國(guó)加利福尼亞州圣克拉拉,2025年6月18日——英特爾公司今日宣布多項(xiàng)人事任命,旨在深化客戶合作關(guān)系,加速推進(jìn)以工程技術(shù)創(chuàng)新為
    的頭像 發(fā)表于 06-19 17:22 ?741次閱讀