91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)項(xiàng)目特征工程實(shí)戰(zhàn)

lviY_AI_shequ ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-08-09 10:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

找特征這件事,Andrew Ng在深度學(xué)習(xí)網(wǎng)課中提到過(guò),原課件見第3課結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目中的2.9和2.10兩節(jié),筆記整理如下:

Andrew以Speech Recognition的場(chǎng)景為例,比較了pipeline和end-to-end兩種建模方式中特征工程的差異。

其中pipeline的搭建依賴于人工設(shè)計(jì)的特征,需要依賴于人類可以理解的音節(jié),將一段音頻轉(zhuǎn)化為文字;而end-to-end模型基于大量的音頻素材,自動(dòng)找出語(yǔ)音和文字間的關(guān)系,不依賴于音節(jié)而自動(dòng)翻譯成文字。

總而言之,除去語(yǔ)音和圖像等特定場(chǎng)景,對(duì)于大部分生活中的機(jī)器學(xué)習(xí)項(xiàng)目,由于沒(méi)有足夠的訓(xùn)練數(shù)據(jù)支撐,我們還無(wú)法完全信任算法自動(dòng)生成的特征,因而基于人工經(jīng)驗(yàn)的特征工程依然是目前的主流。

人工經(jīng)驗(yàn)這件事比較虛,加之許多業(yè)界的項(xiàng)目由于隱私性的考慮,很少會(huì)透露底層的入模特征和計(jì)算邏輯,使得目前網(wǎng)絡(luò)上關(guān)于特征工程細(xì)節(jié)的文章少之又少。答主在這里結(jié)合自己這幾年在金融領(lǐng)域的建模經(jīng)驗(yàn),介紹一些常見的數(shù)據(jù)源類型和特征計(jì)算方法,希望可以幫助剛?cè)胄谢蛘呦肴胄械膹臉I(yè)者們開開腦洞。

(1)支付流水:通常包括支付賬戶、時(shí)間、金額、地點(diǎn)、目的、狀態(tài)等字段,可以反映出客戶的經(jīng)濟(jì)實(shí)力和消費(fèi)習(xí)慣。其中特別的,賬戶間的復(fù)雜交易關(guān)系和異常金額時(shí)間地點(diǎn)的支付行為,都可以在反欺詐場(chǎng)景中應(yīng)用,視為團(tuán)伙作案或者反洗錢的重要指標(biāo)。

(2)財(cái)富管理:基金理財(cái)類產(chǎn)品的申購(gòu)歷史記錄,體現(xiàn)出客戶的資金儲(chǔ)備和購(gòu)買偏好。對(duì)于風(fēng)險(xiǎn)偏好較低的客戶,我們可以推薦小金庫(kù)這類收益穩(wěn)定、波動(dòng)較小的債券類產(chǎn)品;對(duì)于追求高收益的客戶,我們可以推薦在京東金融app上代銷的各類基金,以及智能投顧產(chǎn)品。

(3)貸款信息:伴隨著近幾年國(guó)內(nèi)現(xiàn)金貸以及場(chǎng)景貸市場(chǎng)的迅速發(fā)展,國(guó)家也在大力推動(dòng)各家資方信貸數(shù)據(jù)的治理與共享?;谝粋€(gè)客戶在各個(gè)平臺(tái)上的貸款申請(qǐng)、提現(xiàn)、還款信息,可以刻畫出這個(gè)客戶的還款意愿和征信表現(xiàn),從而為其下一次的信貸申請(qǐng)決策提供建議。常見的,多個(gè)平臺(tái)申請(qǐng)和在貸以及當(dāng)前有貸款發(fā)生90天以上逾期的用戶,都會(huì)被其他平臺(tái)列入自動(dòng)拒絕的名單。

(4)App登錄:從SDK埋點(diǎn)獲取的各類app登錄數(shù)據(jù)中,我們可以分析出用戶在每個(gè)app上的停留時(shí)間,從而側(cè)面了解這個(gè)用戶的興趣愛(ài)好,甚至預(yù)測(cè)用戶的年齡和性別。例如京東、阿里等電商app登錄較頻繁的用戶,通常以女性居多,并且消費(fèi)能力較強(qiáng);而抖音、快手等小視頻app停留時(shí)間較長(zhǎng)的,一般為年輕人群體。

(5)電商流水:從電商公司豐富的訂單流水?dāng)?shù)據(jù)中,可以挖掘出較為完整的客戶畫像。客戶Alice近一年內(nèi)購(gòu)買頻繁,但是平均單筆訂單金額較低,通常集中在生活用品以及水果生鮮,可以推斷出Alice應(yīng)該是一位家庭婦女;而客戶Ben消費(fèi)總金額較高,購(gòu)買過(guò)車飾類產(chǎn)品,收貨地址集中在辦公場(chǎng)所,則大概率Ben是有車一族的白領(lǐng)青年。

(6)收貨地址:在信貸風(fēng)控場(chǎng)景中,通常近一年內(nèi)地址數(shù)量較少、地址穩(wěn)定性高的用戶,貸款逾期風(fēng)險(xiǎn)更低;而對(duì)于地址變動(dòng)頻繁或者涉黑的用戶,建議貸前申請(qǐng)直接拒絕,或者把這些收貨地址運(yùn)用到貸后催收之中。

(7)運(yùn)營(yíng)商信息:數(shù)據(jù)市場(chǎng)上比較常見的第三方數(shù)據(jù)源,可以用作各個(gè)場(chǎng)景下的身份證、姓名、手機(jī)號(hào)的三要素核驗(yàn),以及利用在網(wǎng)時(shí)長(zhǎng)和在網(wǎng)狀態(tài)判斷一個(gè)用戶是否有欺詐風(fēng)險(xiǎn)。

除去上面整理的簡(jiǎn)單底層特征,在實(shí)際工作中數(shù)據(jù)分析師和算法工程師們還需要針對(duì)不同的業(yè)務(wù)場(chǎng)景,利用規(guī)則和模型構(gòu)造一些復(fù)雜特征。

舉兩個(gè)實(shí)際的例子:

第一個(gè)例子,為了計(jì)算用戶的年收入,可以利用近一年內(nèi)支付總金額+理財(cái)總余額-信貸總負(fù)債的大公式,通過(guò)線性回歸擬合出三個(gè)指標(biāo)的系數(shù),來(lái)得到每個(gè)用戶預(yù)測(cè)的收入水平;

第二個(gè)例子,給自己在做的模型打個(gè)小廣告,京東金融金融科技業(yè)務(wù)部基于京東集團(tuán)商城、金融和物流三大自有數(shù)據(jù)源以及海量外部數(shù)據(jù)源,利用XGBoost、LightGBM、CatBoost等復(fù)雜集成樹類算法,計(jì)算得到玉衡分特征,用來(lái)衡量京東客戶在現(xiàn)金貸場(chǎng)景的信用等級(jí),幫助服務(wù)的銀行和小貸公司搭建信貸智能決策系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:在機(jī)器學(xué)習(xí)的項(xiàng)目中,特征是如何被找出來(lái)的

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    生成式AI賦能工程挖掘非結(jié)構(gòu)化數(shù)據(jù)價(jià)值

    您是否知道,生成式 AI(GenAI)可以幫助工程師在幾秒鐘內(nèi)診斷汽車故障,甚至在設(shè)備出現(xiàn)問(wèn)題之前預(yù)測(cè)潛在失效?GenAI 正在通過(guò)加速數(shù)據(jù)分析和算法開發(fā),讓這些場(chǎng)景從設(shè)想走向現(xiàn)實(shí),使工程師能夠充分發(fā)揮專業(yè)知識(shí),
    的頭像 發(fā)表于 02-28 10:24 ?441次閱讀

    少走三年彎路!頂尖硬件工程師分享的“實(shí)戰(zhàn)錦囊”!

    /測(cè)試、信號(hào)完整性、可靠性、結(jié)構(gòu)設(shè)計(jì)、項(xiàng)目管理等多個(gè)關(guān)鍵領(lǐng)域。通過(guò)互動(dòng)式、實(shí)戰(zhàn)導(dǎo)向的學(xué)習(xí)模式,我們賦能工程師提升實(shí)踐能力,高效解決實(shí)際工作中的技術(shù)難題,從而顯著提升
    的頭像 發(fā)表于 02-26 15:54 ?91次閱讀
    少走三年彎路!頂尖硬件<b class='flag-5'>工程</b>師分享的“<b class='flag-5'>實(shí)戰(zhàn)</b>錦囊”!

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒(méi)辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?346次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分類變量的數(shù)值化處理方法

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    高清錄屏演示 進(jìn)度梯度設(shè)計(jì):前3章(視覺(jué)篇)聚焦傳統(tǒng)算法,第6章起逐步引入深度學(xué)習(xí),避免知識(shí)斷層 2)實(shí)戰(zhàn)項(xiàng)目拆解教學(xué) 以\"雙CCD光學(xué)分選案例\"為例,采用\"硬件連接
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    高清錄屏演示 進(jìn)度梯度設(shè)計(jì):前3章(視覺(jué)篇)聚焦傳統(tǒng)算法,第6章起逐步引入深度學(xué)習(xí),避免知識(shí)斷層 2)實(shí)戰(zhàn)項(xiàng)目拆解教學(xué) 以\"雙CCD光學(xué)分選案例\"為例,采用\"硬件連接
    發(fā)表于 12-03 13:50

    京東商品詳情接口實(shí)戰(zhàn)解析:從調(diào)用優(yōu)化到商業(yè)價(jià)值挖掘(附避坑代碼)

    本文深入解析京東商品詳情接口jd.union.open.goods.detail.query,涵蓋核心特性、權(quán)限限制、關(guān)鍵參數(shù)及調(diào)用避坑指南。通過(guò)實(shí)戰(zhàn)代碼演示數(shù)據(jù)采集、促銷解析與商業(yè)分析,助力開發(fā)者高效獲取價(jià)格、庫(kù)存、評(píng)價(jià)等全維度數(shù)據(jù)
    的頭像 發(fā)表于 10-10 09:28 ?855次閱讀
    京東商品詳情接口<b class='flag-5'>實(shí)戰(zhàn)</b>解析:從調(diào)用優(yōu)化到商業(yè)價(jià)值<b class='flag-5'>挖掘</b>(附避坑代碼)

    XKCON祥控輸煤皮帶智能機(jī)器人巡檢系統(tǒng)對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行挖掘分析

    XKCON祥控輸煤皮帶智能機(jī)器人巡檢系統(tǒng)通過(guò)智能機(jī)器人在皮帶運(yùn)行過(guò)程中對(duì)皮帶的運(yùn)行狀態(tài)和環(huán)境狀況進(jìn)行實(shí)時(shí)檢測(cè),在應(yīng)用過(guò)程中,不但提升了巡視周期頻次,還通過(guò)大數(shù)據(jù)分析和深度學(xué)習(xí)算法,對(duì)監(jiān)
    的頭像 發(fā)表于 09-15 11:22 ?631次閱讀
    XKCON祥控輸煤皮帶智能<b class='flag-5'>機(jī)器</b>人巡檢系統(tǒng)對(duì)監(jiān)測(cè)<b class='flag-5'>數(shù)據(jù)</b>進(jìn)行<b class='flag-5'>挖掘</b>分析

    項(xiàng)目實(shí)戰(zhàn)】基于STM32F103的智能小車(遠(yuǎn)程控制、超聲波避障、循跡、紅外遙控)有教程代碼

    在嵌入式開發(fā)學(xué)習(xí)中,實(shí)戰(zhàn)項(xiàng)目是將理論轉(zhuǎn)化為能力的最佳載體——本次【項(xiàng)目實(shí)戰(zhàn)】聚焦基于STM32的智能小車,不僅整合了紅外遙控、微信小程序遠(yuǎn)程
    的頭像 發(fā)表于 09-08 16:06 ?1514次閱讀
    【<b class='flag-5'>項(xiàng)目</b><b class='flag-5'>實(shí)戰(zhàn)</b>】基于STM32F103的智能小車(遠(yuǎn)程控制、超聲波避障、循跡、紅外遙控)有教程代碼

    如何解決開發(fā)機(jī)器學(xué)習(xí)程序時(shí)Keil項(xiàng)目只能在調(diào)試模式下運(yùn)行,但無(wú)法正常執(zhí)行的問(wèn)題?

    如何解決開發(fā)機(jī)器學(xué)習(xí)程序時(shí)Keil項(xiàng)目只能在調(diào)試模式下運(yùn)行,但無(wú)法正常執(zhí)行的問(wèn)題
    發(fā)表于 08-28 07:28

    【「Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗(yàn)】+基礎(chǔ)概念學(xué)習(xí)理解

    系統(tǒng)的基礎(chǔ)知識(shí),及yocto的基礎(chǔ)知識(shí)。這部分內(nèi)容對(duì)于我這樣有一定 Linux 基礎(chǔ)的讀者來(lái)說(shuō),起到了很好的復(fù)習(xí)和鞏固作用,同時(shí)也為后續(xù)學(xué)習(xí) Yocto 項(xiàng)目奠定了堅(jiān)實(shí)的理論基礎(chǔ)。 元數(shù)據(jù)
    發(fā)表于 08-04 22:29

    Ansible代碼上線項(xiàng)目實(shí)戰(zhàn)案例

    在DevOps浪潮中,自動(dòng)化部署已經(jīng)成為每個(gè)運(yùn)維工程師的必備技能。今天我將分享一個(gè)完整的Ansible代碼上線項(xiàng)目實(shí)戰(zhàn)案例,讓你的部署效率提升10倍!
    的頭像 發(fā)表于 07-24 14:03 ?592次閱讀

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    實(shí)踐。 為開源項(xiàng)目貢獻(xiàn)代碼或者文檔。比如,幫助完善一個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集的加載模塊的代碼,或者撰寫某個(gè)AI算法的使用說(shuō)明文檔。這不僅可以提升自己的技術(shù)能力,還能在AI社區(qū)中建立自己的聲譽(yù)。
    發(fā)表于 07-08 17:44

    【書籍評(píng)測(cè)活動(dòng)NO.61】Yocto項(xiàng)目實(shí)戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)

    Yocto 項(xiàng)目,快速掌握 Yocto 項(xiàng)目的基礎(chǔ)知識(shí)與實(shí)戰(zhàn)技巧。 本書作者 本書作者孫杰是資深嵌入式軟件工程師 。長(zhǎng)期深耕 Yocto 項(xiàng)目
    發(fā)表于 05-21 10:00

    學(xué)電路設(shè)計(jì)分享學(xué)習(xí)心得、技術(shù)疑問(wèn)及實(shí)戰(zhàn)成果

    活動(dòng)介紹:隨著物聯(lián)網(wǎng)、智能硬件等領(lǐng)域的快速發(fā)展,硬件開發(fā)與電路設(shè)計(jì)技能成為電子工程師和創(chuàng)客的核心競(jìng)爭(zhēng)力。為幫助剛?cè)胄械碾娮有“?、高校大學(xué)生高效掌握從基礎(chǔ)理論到實(shí)戰(zhàn)應(yīng)用的能力,電子發(fā)燒友平臺(tái)推出學(xué)習(xí)
    的頭像 發(fā)表于 05-20 08:07 ?628次閱讀
    學(xué)電路設(shè)計(jì)分享<b class='flag-5'>學(xué)習(xí)</b>心得、技術(shù)疑問(wèn)及<b class='flag-5'>實(shí)戰(zhàn)</b>成果

    樹莓派5 + Hailo AI加速器:工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路

    本文討論了在工業(yè)自動(dòng)化背景下,開發(fā)者利用樹莓派5和HailoAI加速器進(jìn)行工業(yè)級(jí)數(shù)值數(shù)據(jù)處理實(shí)戰(zhàn),打通SQLite與機(jī)器學(xué)習(xí)全鏈路時(shí)遇到的問(wèn)題及解決方案。關(guān)鍵要點(diǎn)包括:1.開發(fā)者需求:
    的頭像 發(fā)表于 03-25 09:22 ?1237次閱讀
    樹莓派5 + Hailo AI加速器:工業(yè)級(jí)數(shù)值<b class='flag-5'>數(shù)據(jù)</b>處理<b class='flag-5'>實(shí)戰(zhàn)</b>,打通SQLite與<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>全鏈路