91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

快速掌握特征構(gòu)建的常用方法

格創(chuàng)東智 ? 2018-12-12 11:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在之前格物匯的文章中,我們介紹了工業(yè)數(shù)據(jù)預(yù)處理的方法以及特征工程的基本知識(shí),今天要帶大家來(lái)了解如何做特征構(gòu)建。


特征構(gòu)建常用方法


特征構(gòu)建的常用方法是屬性分割和結(jié)合,這一般根據(jù)我們具體的問(wèn)題所決定。我們通過(guò)具體的應(yīng)用場(chǎng)景來(lái)看看:


時(shí)間列處理

時(shí)間戳屬性通常需要分離成多個(gè)維度比如年、月、日、小時(shí)、分鐘、秒鐘。通常時(shí)間序列數(shù)據(jù)會(huì)含有一定的趨勢(shì)和周期性,這時(shí)需要我們?nèi)?/span>構(gòu)建趨勢(shì)因子和周期因子。


分解類別屬性

一些屬性是類別型而不是數(shù)值型,舉一個(gè)簡(jiǎn)單的例子,由{紅,綠、藍(lán)}組成的顏色屬性,最常用的方式是把每個(gè)類別屬性轉(zhuǎn)換成二元屬性,即從{0,1}取一個(gè)值。因此基本上增加的屬性等于相應(yīng)數(shù)目的類別,并且對(duì)于你數(shù)據(jù)集中的每個(gè)實(shí)例,只有一個(gè)是1(其他的為0),這也就是獨(dú)熱(one-hot)編碼方式。我們?cè)谇懊娴奈恼轮薪榻B過(guò)了,在此不再贅述。


分箱和分區(qū)

有時(shí)候,將數(shù)值型屬性轉(zhuǎn)換成類別呈現(xiàn)更有意義,同時(shí)能使算法減少噪聲的干擾,通過(guò)將一定范圍內(nèi)的數(shù)值劃分成確定的塊。舉個(gè)例子,我們預(yù)測(cè)一個(gè)人是否擁有某款衣服,這里年齡是一個(gè)確切的因子。其實(shí)年齡組是更為相關(guān)的因子,所以我們可以將年齡分布劃分成1-10,11-18,19-25,26-40等年齡段,分別表示 幼兒,青少年,青年,中年四個(gè)年齡組,讓相近的年齡組表現(xiàn)出相似的屬性。此外,我們還可以對(duì)分箱,分區(qū)做一些統(tǒng)計(jì)量字段作為數(shù)據(jù)的特征。


只有在了解屬性的領(lǐng)域知識(shí)的基礎(chǔ),確定屬性能夠劃分成簡(jiǎn)潔的范圍時(shí)分區(qū)才有意義。即所有的數(shù)值落入一個(gè)分區(qū)時(shí)能夠呈現(xiàn)出共同的特征。在實(shí)際應(yīng)用中,當(dāng)你不想讓你的模型總是嘗試區(qū)分值之間是否太近時(shí),分區(qū)能夠避免出現(xiàn)過(guò)擬合。例如,如果你所感興趣的是將一個(gè)城市作為整體,這時(shí)你可以將所有落入該城市的維度值進(jìn)行整合成一個(gè)整體。分箱也能減小小錯(cuò)誤的影響,通過(guò)將一個(gè)給定值劃入到最近的塊中。如果劃分范圍的數(shù)量和所有可能值相近,或?qū)δ銇?lái)說(shuō)準(zhǔn)確率很重要的話,此時(shí)分箱就不適合了。

交叉特征

交叉特征是特征工程中重要的方法之一,交叉特征是一種很獨(dú)特的方式,它將兩個(gè)或更多的類別屬性組合成一個(gè)。當(dāng)組合的特征要比單個(gè)特征更好時(shí),這是一項(xiàng)非常有用的技術(shù)。數(shù)學(xué)上來(lái)說(shuō),是對(duì)類別特征的所有可能值進(jìn)行交叉相乘。當(dāng)然我們不僅僅會(huì)去查找交叉項(xiàng)關(guān)系,還可以去尋找更加復(fù)雜的二次項(xiàng),三次項(xiàng)乃至更復(fù)雜的關(guān)系,這根據(jù)問(wèn)題求解的需要決定。


經(jīng)度與緯度的組合便是交叉特征的應(yīng)用實(shí)例,一個(gè)相同的經(jīng)度對(duì)應(yīng)了地圖上很多的地方,緯度也是一樣。但是一旦你將經(jīng)度和緯度組合到一起,它們就代表了地理上特定的一塊區(qū)域,區(qū)域中每一部分是擁有著類似的特性。

小結(jié)

一般我們會(huì)收集與問(wèn)題相關(guān)的數(shù)據(jù)作為我們的特征,但是這些特征有時(shí)不足以解釋我們的問(wèn)題,我們還是會(huì)通過(guò)特征構(gòu)建來(lái)增加解釋能力。這其實(shí)是對(duì)數(shù)據(jù)進(jìn)行升維操作,總的來(lái)說(shuō),特征構(gòu)建可以給我們的模型提供一些關(guān)鍵的信息,來(lái)解決模型解釋能力不足的情況。但如果我們收集的數(shù)據(jù)包含了過(guò)多的特征,如何對(duì)這些特征進(jìn)行提純呢?請(qǐng)繼續(xù)關(guān)注格物匯,我們將在之后的文章中詳細(xì)講解。


本文作者:格創(chuàng)東智 OT團(tuán)隊(duì) (轉(zhuǎn)載請(qǐng)注明來(lái)源及作者)


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    嵌入式驅(qū)動(dòng)開(kāi)發(fā),需要掌握哪些技能?

    。 4、 熟悉驅(qū)動(dòng)開(kāi)發(fā)常用工具做驅(qū)動(dòng)開(kāi)發(fā),會(huì)牽涉到很多軟硬件工具。比如:VS Code、Keil、 J-Link、Git等。 5、 調(diào)試和故障排除嵌入式軟件的測(cè)試和調(diào)試非常重要,需要掌握各種測(cè)試方法,如
    發(fā)表于 01-20 16:46

    學(xué)習(xí)單片機(jī)快速方法

    學(xué)習(xí)單片機(jī)的快速方法 先介紹下單片機(jī)。把單片機(jī)說(shuō)成是電子信息類專業(yè)最重要的一門課程一點(diǎn)也不為過(guò),你在街上看到的廣告彩燈、煙花表演、紅綠燈、自動(dòng)開(kāi)關(guān)門這些都可以用單片機(jī)實(shí)現(xiàn)。有了單片機(jī),你就可以寫程序
    發(fā)表于 01-14 07:42

    嵌入式應(yīng)掌握的幾種能力

    中,也會(huì)選擇使用C++來(lái)進(jìn)行開(kāi)發(fā)。 補(bǔ)充編程語(yǔ)言的知識(shí)時(shí),除了掌握語(yǔ)言本身的知識(shí)之外。還需要同時(shí)學(xué)習(xí):編譯、構(gòu)建、調(diào)試等方面的相關(guān)知識(shí)。這類很重要的知識(shí)一般C語(yǔ)言課程都沒(méi)教: 2. 芯片
    發(fā)表于 12-08 06:05

    新手速成:掌握TTS/文件播放/錄音核心,構(gòu)建完整音頻處理功能

    剛接觸音頻開(kāi)發(fā)時(shí),TTS播放、文件播放與錄音功能看似復(fù)雜,實(shí)則是實(shí)現(xiàn)完整音頻處理的基礎(chǔ)。本文從新手視角出發(fā),拆解這三大功能的核心邏輯——資源管理、播放控制與狀態(tài)反饋,幫你快速掌握核心并整合為完整
    的頭像 發(fā)表于 11-21 19:26 ?299次閱讀
    新手速成:<b class='flag-5'>掌握</b>TTS/文件播放/錄音核心,<b class='flag-5'>構(gòu)建</b>完整音頻處理功能

    諧波源定位常用方法有哪些?

    諧波源定位的核心是通過(guò) “信號(hào)測(cè)量→特征分析→邏輯判斷”,確定電網(wǎng)中產(chǎn)生諧波的具體設(shè)備、用戶或區(qū)域,常用方法可按 “原理差異” 分為功率流向類、暫態(tài)對(duì)比類、阻抗分析類、相位判斷類、數(shù)據(jù)驅(qū)動(dòng)類五大類
    的頭像 發(fā)表于 10-13 16:41 ?991次閱讀

    掌握數(shù)字設(shè)計(jì)基礎(chǔ):邁向芯片設(shè)計(jì)的第一步

    核心原理,幫助你快速理解數(shù)字設(shè)計(jì)的基本方法。 1、二進(jìn)制:數(shù)字世界的語(yǔ)言 所有數(shù)字電路的底層邏輯,都源自最簡(jiǎn)單的 二進(jìn)制系統(tǒng)。0和1看似簡(jiǎn)單,卻是信息編碼的唯一符號(hào)。每一個(gè)二進(jìn)制位(bit)都代表一個(gè)
    發(fā)表于 10-09 21:11

    使用jQuery的常用方法與返回值分析

    使用jQuery的常用方法與返回值分析 jQuery是一個(gè)輕量級(jí)的JavaScript庫(kù),旨在簡(jiǎn)化HTML文檔遍歷和操作、事件處理以及動(dòng)畫效果的創(chuàng)建。本文將介紹一些常用的jQuery方法
    發(fā)表于 10-01 20:18

    新手如何快速掌握電磁閥氣密性檢測(cè)設(shè)備的操作?

    對(duì)于剛接觸工業(yè)檢測(cè)的新手來(lái)說(shuō),面對(duì)一臺(tái)電磁閥氣密性檢測(cè)設(shè)備可能會(huì)感到無(wú)從下手。但其實(shí),只要掌握正確的學(xué)習(xí)方法和操作流程,快速上手并非難事。今天就為大家?guī)?lái)一份實(shí)用的入門指南。首先,做好充分的準(zhǔn)備工作
    的頭像 發(fā)表于 09-25 15:02 ?475次閱讀
    新手如何<b class='flag-5'>快速</b><b class='flag-5'>掌握</b>電磁閥氣密性檢測(cè)設(shè)備的操作?

    如何構(gòu)建高績(jī)效智能體

    當(dāng)智能體成為每位員工的專屬團(tuán)隊(duì),你的角色正從執(zhí)行者升級(jí)為“智能體管理者”:指揮AI工具完成工作、擴(kuò)大影響力已成職場(chǎng)新剛需。如何構(gòu)建高績(jī)效智能體?如何配置人機(jī)協(xié)作黃金比例?如何量化智能體的業(yè)務(wù)回報(bào)?掌握“前沿企業(yè)”的智能體管理實(shí)踐,快速
    的頭像 發(fā)表于 09-10 15:24 ?1205次閱讀

    【「Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗(yàn)】+基礎(chǔ)概念學(xué)習(xí)理解

    軟件包的依賴關(guān)系、編譯選項(xiàng)、配置參數(shù)等。掌握元數(shù)據(jù)的使用方法對(duì)于定制和優(yōu)化嵌入式 Linux 系統(tǒng)至關(guān)重要。 BitBake BitBake 是 Yocto 項(xiàng)目的構(gòu)建工具。通過(guò)學(xué)習(xí)這部分內(nèi)容,我深入
    發(fā)表于 08-04 22:29

    變頻器維修需掌握方法

    變頻器維修需要掌握方法多種多樣,以下是一些關(guān)鍵的維修方法。 ? 一、報(bào)警參數(shù)檢查法 變頻器通常會(huì)針對(duì)電壓、電流、溫度、通訊等故障給出相應(yīng)的報(bào)錯(cuò)信息。維修人員應(yīng)首先查看變頻器的報(bào)警參數(shù),了解故障
    的頭像 發(fā)表于 08-03 07:38 ?1562次閱讀

    一文掌握Linux命令

    作為一名運(yùn)維工程師,熟練掌握Linux命令是基本功中的基本功。無(wú)論是日常工作中的系統(tǒng)維護(hù),還是面試時(shí)的技術(shù)考核,Linux命令都是繞不開(kāi)的核心技能。本文將從實(shí)戰(zhàn)角度出發(fā),系統(tǒng)梳理運(yùn)維工程師必須掌握的Linux命令,并結(jié)合實(shí)際場(chǎng)景解析其應(yīng)用
    的頭像 發(fā)表于 07-22 15:23 ?637次閱讀

    PLC梯形圖編程方法(PPT版)

    梯形圖經(jīng)驗(yàn)設(shè)計(jì)法 經(jīng)驗(yàn)設(shè)計(jì)方法也叫試湊法,經(jīng)驗(yàn)設(shè)計(jì)方法需要設(shè)計(jì)者掌握大量的典型電路,在掌握這些典型電路的基礎(chǔ)上,充分理解實(shí)際的控制問(wèn)題,將實(shí)際控制問(wèn)題分解成典型控制電路,然后用典型電路
    發(fā)表于 05-30 16:46

    瑞芯微RK平臺(tái)開(kāi)發(fā)必備的20個(gè)常用命令,幫您效率翻倍

    本文將系統(tǒng)地梳理飛凌嵌入式RK平臺(tái)主控產(chǎn)品在開(kāi)發(fā)過(guò)程中常用的命令,助力更多開(kāi)發(fā)者快速掌握RK系列芯片的開(kāi)發(fā)方法。
    的頭像 發(fā)表于 04-16 15:36 ?1448次閱讀
    瑞芯微RK平臺(tái)開(kāi)發(fā)必備的20個(gè)<b class='flag-5'>常用</b>命令,幫您效率翻倍

    一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

    本文提出了一種穩(wěn)健的單目視覺(jué)SLAM系統(tǒng),該系統(tǒng)同時(shí)利用點(diǎn)、線和消失點(diǎn)特征來(lái)進(jìn)行精確的相機(jī)位姿估計(jì)和地圖構(gòu)建,有效解決了傳統(tǒng)基于點(diǎn)特征的SLAM的局限性。
    的頭像 發(fā)表于 03-21 17:07 ?1061次閱讀
    一種基于點(diǎn)、線和消失點(diǎn)<b class='flag-5'>特征</b>的單目SLAM系統(tǒng)設(shè)計(jì)