91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動特征工程在推薦系統(tǒng)中的研究

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 21:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在先薦推薦系統(tǒng)學(xué)院|第1期的分享中,第四范式資深研究員羅遠(yuǎn)飛針對推薦系統(tǒng)中的高維稀疏數(shù)據(jù),介紹了如何在指數(shù)級搜索空間中,高效地自動生成特征和選擇算法;以及如何結(jié)合大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng),在顯著降低計算、存儲和通信代價的情況下,從數(shù)據(jù)中快速篩選出有效的組合特征。

以下是羅遠(yuǎn)飛在先薦推薦系統(tǒng)學(xué)院第一期線上活動中的技術(shù)分享:

大家好!我是第四范式的羅遠(yuǎn)飛!?

很高興能有機(jī)會和大家一起交流關(guān)于自動機(jī)器學(xué)習(xí)方面的一些工作。?我在第四范式的工作大都和自動機(jī)器學(xué)習(xí)相關(guān),之前的精力主要集中在自動特征工程。雖然模型改進(jìn)能夠帶來穩(wěn)定的收益,但是更為困難。?所以如果是在做一個新的業(yè)務(wù),?可以先嘗試從做特征入手,特征工程往往能夠帶來更明顯的收益。

AutoCross的背景

??本次報告所提及的自動機(jī)器學(xué)習(xí),是針對表數(shù)據(jù)的自動機(jī)器學(xué)習(xí)。?表數(shù)據(jù)是一個經(jīng)典的數(shù)據(jù)格式,它一般包含多列,列可能對應(yīng)離散特征或者連續(xù)特征。?我們不能將用于圖像、語音或者NLP中的模型直接拿過來用,需要做特定的優(yōu)化。?

本次報告提及的特征組合,特指featurecrossing,即兩個離散特征的笛卡爾積。以“去過的餐廳”為例,我經(jīng)常去麥當(dāng)勞,?那么我和麥當(dāng)勞可以做為一個組合特征;再比如我去肯德基,則我和肯德基也可做為一個組合特征。

本次報告提及的自動特征工程,是指?自動從上表數(shù)據(jù)中發(fā)現(xiàn)這些有效的組合特征。比如我是一位軟件工程師,是一個特征;在第四范式工作,是另外一個特征。這兩個特征是分成兩列儲存的,我們可以把?這兩列組合成一個新的特征,?這個特征的指示性更強(qiáng),更具有個性化。?

為什么需要自動特征工程呢?

首先,特征對建模效果有著非常重要的作用。其次,客戶的場景遠(yuǎn)比建模專家多,?如我們的先薦業(yè)務(wù)有上千家媒體,我們不能給每個業(yè)務(wù)都配備一個專家,針對每一個場景人工去建模。最后,即使只有一個業(yè)務(wù),數(shù)據(jù)也是多變的,面臨的場景也是不停變化的,?所以我們要做自動特征工程,?不能讓人力和我們的業(yè)務(wù)量呈正比。

AutoCross的相關(guān)研究

自動特征工程主要分為兩大類,一類是顯式特征組合,?另一類是隱式特征組合。

顯式的特征組合

顯式的特征組合有兩個代表性工作,分別是RMI[2]和CMI[3]。其中字母“MI”代表互信息(MutualInformation),是一個經(jīng)典的特征選擇的方法。?

MI是通過統(tǒng)計同一個數(shù)據(jù)中,兩列特征的出現(xiàn)頻率和共現(xiàn)頻率計算得到。但是RMI的做法是在訓(xùn)練集合統(tǒng)計一部分信息,在另外一部分成為reference數(shù)據(jù)上統(tǒng)計另外一部分信息,這也是“R”的來源。上圖?來自于RMI的論文[2],表示隨著不同的?組合特征加進(jìn)去,然后AUC逐漸地上漲。?CMI是另外一個經(jīng)典的工作,CMI通過分析對率損失函數(shù),結(jié)合牛頓法,計算出每個特征的重要性。

它們都取得了不錯的效果。但一方面,它們只考慮二階特征組合;另外,它們均為串行算法,每次選擇一個組合特征后,都需把其他特征重新訓(xùn)練一遍,是O(n^2)復(fù)雜度,其中n為特征數(shù)目。?此外,MI本身不允許一個特征下同時出現(xiàn)多個取值。?

隱式的特征組合

另外一類是隱式特征組合,大家可能更熟悉一些。FM[4]和FFM[5]是枚舉所有的?二階特征組合,它們組合方式是用低維空間中的內(nèi)積去代表兩個特征的組合,取得了很好的效果。?隨著DL的興起,現(xiàn)在更流行基于DNN做隱式特征組合。但是它的可解釋性不強(qiáng),一直被大家詬病。

我們提出AutoCross[1],它具有很強(qiáng)的可解釋性,能夠做到高階特征組合,同時具有較高的Inference效率。

AutoCross整體結(jié)構(gòu)

從左往右看,?AutoCross的輸入是數(shù)據(jù)和對應(yīng)的特征類型,然后經(jīng)過AutoCross的Flow,?輸出一個特征生成器,能夠把學(xué)到的特征處理方式應(yīng)用于新數(shù)據(jù)。

?Flow里主要有三個部分,首先是預(yù)處理,?然后是組合特征生成和組合特征選擇的迭代過程。?針對數(shù)據(jù)預(yù)處理,我們提出了多粒度離散化;針對怎么從指數(shù)級空間中有效的生成組合特征,?我們用了集束搜索(BeamSearch);針對如何有效且低代價地特征選擇,我們提出了逐域?qū)?shù)幾率回歸(Field-wiseLR)和連續(xù)小批量梯度下降(SuccessiveMini-batchGD)兩種方法。?

AutoCross算法

下面我們看一下每個過程所涉及的算法。?

首先是數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理的目的是補(bǔ)充缺失值,并將連續(xù)特征離散化。我們觀察到?,對于連續(xù)特征,在離散化的時候,如果選擇的離散化粒度不一樣,其效果會差別非常大。?甚至在一個數(shù)據(jù)集上觀察到AUC有10個百分點(diǎn)的差異。如果對每一個數(shù)據(jù)集都手動設(shè)置最優(yōu)的離散化粒度,代價比較高,也不現(xiàn)實(shí)。

基于此我們提出了多粒度離散化方法,同時使用多種粒度去離散化同一個特征,比如特征“年齡”,我們按照年齡間隔為5的離散化一次,年齡間隔為10的離散化一次,?年齡間隔為20的再離散化一次,同時生成多個不同的離散化特征,讓模型自動去選擇最適合它的特征。

集束搜索(BeamSearch)

如前文所述,假設(shè)有n個原始特征,?那么可能的k階特征有O(n^k)個,這是?一個指數(shù)級增長的過程。?如何在這個空間中有效地去搜索、生成、組合特征呢?如果都生成,在計算和存儲上都不太可行。?

我們借鑒集束搜索(BeamSearch)的方法來解決該問題。它的工作原理是,先生成一部分二階組合特征,?然后用效果好的二階組合特征去衍生三階組合特征,并非生成所有的三階組合特征,相當(dāng)于一種貪心的搜索方法。

逐域?qū)?shù)幾率回歸(Field-wiseLR)

我們通過多粒度離散化對數(shù)據(jù)進(jìn)行預(yù)處理,之后通過集束搜索縮減搜索空間。

但生成的特征依然數(shù)量眾多,怎么才能快速、低代價地從生成特征中選出有效的特征呢?對此,我們提出了逐域?qū)?shù)幾率回歸(Field-wiseLR)算法,固定已選特征對應(yīng)的模型參數(shù),?然后計算候選特征中哪個特征?加進(jìn)來,能夠最大程度的提升模型效果。這樣做能夠顯著節(jié)約計算、通信和存儲上的開銷。?

?連續(xù)小批量梯度下降(SuccessiveMini-batchGD)

為了進(jìn)一步降低特征評估成本,我們又提出了連續(xù)小批量梯度下降(SuccessiveMini-batchGD)方法。在小批量梯度下降的迭代過程中,逐漸淘汰不顯著的候選特征,并給予較重要的特征更多批的數(shù)據(jù),以增加其評估準(zhǔn)確性。

?AutoCross-System優(yōu)化

下面介紹我們在系統(tǒng)上做的一些優(yōu)化。

緩存特征權(quán)重

從算法上來看,我們的?系統(tǒng)是一個指數(shù)空間的搜索問題,即使能夠降低其復(fù)雜度,它的運(yùn)算代價依然很大。因此我們會對數(shù)據(jù)采樣,并序列化壓縮存儲。

?之后,當(dāng)運(yùn)行逐域?qū)?shù)幾率回歸時,系統(tǒng)會把已經(jīng)計算過的特征權(quán)重緩存下來。如果按照以前的方法,我們需要先從參數(shù)服務(wù)器上獲取已經(jīng)生成特征的權(quán)重,?這一步會帶來網(wǎng)絡(luò)開銷;獲取之后要做運(yùn)算,并生成該特征及預(yù)測,這一步會產(chǎn)生計算開銷;?生成特征之后,再存儲到硬盤中,進(jìn)一步會產(chǎn)生存儲成本。?但是,我們把之前的那些特征的權(quán)重都給緩存下來,通過直接查表,就能夠降低網(wǎng)絡(luò)、計算、存儲的開銷。?

在線計算

除了緩存特征權(quán)重之外,我們還進(jìn)行了在線計算。我們在做特征生成的同時,有獨(dú)立的線程去序列化數(shù)據(jù)和生成特征。

數(shù)據(jù)并行

此外,數(shù)據(jù)并行也是系統(tǒng)優(yōu)化的常用方法。系統(tǒng)的每個進(jìn)程中都有一份計算圖,并通過主節(jié)點(diǎn),?或者參數(shù)服務(wù)器,保證它們之間有序地在進(jìn)行各個操作。?

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于RISC-V架構(gòu)的抗輻照MCU商業(yè)航天液冷系統(tǒng)的集成化應(yīng)用研究

    液冷系統(tǒng)控制單元的集成化應(yīng)用?;谥仉x子單粒子試驗(yàn)、質(zhì)子單粒子效應(yīng)試驗(yàn)、總劑量效應(yīng)試驗(yàn)及脈沖激光單粒子效應(yīng)試驗(yàn)的多源數(shù)據(jù),分析了該MCU輻射環(huán)境下的可靠性邊界特征,探討了液冷
    的頭像 發(fā)表于 03-08 23:13 ?553次閱讀

    Siemens 工業(yè)電纜與線束自動系統(tǒng)的技術(shù)與選型指南

    工業(yè)自動系統(tǒng)的布線與線束組件是保障設(shè)備穩(wěn)定運(yùn)行的重要基礎(chǔ)。高質(zhì)量的工業(yè)電纜不僅用于 PLC、傳感器、驅(qū)動器之間的數(shù)據(jù)傳輸,還承擔(dān)著現(xiàn)場控制信號、以太網(wǎng)通信以及實(shí)時總線系統(tǒng)的穩(wěn)定連接
    的頭像 發(fā)表于 01-29 19:50 ?923次閱讀
    Siemens 工業(yè)電纜與線束<b class='flag-5'>在</b><b class='flag-5'>自動</b>化<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>中</b>的技術(shù)與選型指南

    SICK工業(yè)線纜自動系統(tǒng)的應(yīng)用與選型

    工業(yè)自動系統(tǒng),傳感器和執(zhí)行器的穩(wěn)定信號傳輸是系統(tǒng)可靠運(yùn)行的基礎(chǔ)。作為全球領(lǐng)先的傳感器與自動
    的頭像 發(fā)表于 01-29 17:28 ?705次閱讀

    客戶升級新版本的開發(fā)工具后,打開工程,有發(fā)現(xiàn)工程系統(tǒng)字體找不到?

    客戶升級新版本的開發(fā)工具后,打開工程,有發(fā)現(xiàn)工程系統(tǒng)字體找不到?
    發(fā)表于 01-20 15:16

    進(jìn)程概念和特征

    進(jìn)程的概念   多道程序環(huán)境下,允許多個程序并發(fā)執(zhí)行,此時它們將失去封閉性,并具有間斷性及不可再現(xiàn)性的特征。為此引入了進(jìn)程(Process)的概念,以便更好地描述和控制程序的并發(fā)執(zhí)行,實(shí)現(xiàn)操作系統(tǒng)
    發(fā)表于 01-15 06:39

    Aumovio案例研究 | 軟件即產(chǎn)品(SWaap)背景下的模型系統(tǒng)工程與閉環(huán)系統(tǒng)驗(yàn)證

    Aumovio案例研究客戶背景Aumovio作為一家科技公司,致力于為當(dāng)前及未來的移動出行挑戰(zhàn)提供硬件、軟件與服務(wù)的最佳融合方案。挑戰(zhàn)軟件即產(chǎn)品(SoftwareasaProduct,SWaaP
    的頭像 發(fā)表于 01-07 10:04 ?634次閱讀
    Aumovio案例<b class='flag-5'>研究</b> | 軟件即產(chǎn)品(SWaap)背景下的模型<b class='flag-5'>系統(tǒng)工程</b>與閉環(huán)<b class='flag-5'>系統(tǒng)</b>驗(yàn)證

    嵌入式軟件單元測試AI自動化與人工檢查的協(xié)同機(jī)制研究:基于專業(yè)工具的實(shí)證分析

    ? ?摘要****? 本文系統(tǒng)探討嵌入式軟件相較于通用軟件單元測試層面的特殊性,分析其對高覆蓋率、可追溯性與實(shí)時性驗(yàn)證的嚴(yán)苛需求,并以專業(yè)工具winAMS為技術(shù)載體,深入研究AI驅(qū)動的自動
    發(fā)表于 12-31 11:22

    FPGA和GPU加速的視覺SLAM系統(tǒng)特征檢測器研究

    特征檢測是SLAM系統(tǒng)中常見但耗時的模塊,隨著SLAM技術(shù)日益廣泛應(yīng)用于無人機(jī)等功耗受限平臺,其效率優(yōu)化尤為重要。本文首次針對視覺SLAM流程開展硬件加速特征檢測器的對比研究,通過對比
    的頭像 發(fā)表于 10-31 09:30 ?747次閱讀
    FPGA和GPU加速的視覺SLAM<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>中</b><b class='flag-5'>特征</b>檢測器<b class='flag-5'>研究</b>

    電源模塊配電自動化終端的應(yīng)用

    配電終端設(shè)備的可靠性和自動化程度,直接影響到整個配電自動系統(tǒng)的可靠性和自動化水平。由于配電終端設(shè)備一般安裝于戶外或比較偏僻的地方,不可能有直流電源提供,因此,配電網(wǎng)終端設(shè)備的直流供電
    的頭像 發(fā)表于 07-22 10:20 ?2.4w次閱讀
    電源模塊<b class='flag-5'>在</b>配電<b class='flag-5'>自動</b>化終端<b class='flag-5'>中</b>的應(yīng)用

    高壓放大器光學(xué)研究的應(yīng)用

    、自適應(yīng)光學(xué)系統(tǒng)以及光學(xué)非線性過程研究等。 圖:高壓放大器基于納米光纖的光學(xué)諧振腔研究的應(yīng)用 二、高壓放大器光學(xué)
    的頭像 發(fā)表于 07-10 11:42 ?719次閱讀
    高壓放大器<b class='flag-5'>在</b>光學(xué)<b class='flag-5'>研究</b><b class='flag-5'>中</b>的應(yīng)用

    試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)工程建設(shè)應(yīng)用描述

    隨著科技的不斷發(fā)展,現(xiàn)代試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)工程領(lǐng)域中扮演著越來越重要的角色。本文將重點(diǎn)介紹試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)壓力機(jī)、萬能機(jī)和抗折一體機(jī)
    的頭像 發(fā)表于 07-08 10:37 ?509次閱讀
    試驗(yàn)機(jī)數(shù)據(jù)采集<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>在</b><b class='flag-5'>工程</b>建設(shè)<b class='flag-5'>中</b>應(yīng)用描述

    無刷雙饋電機(jī)獨(dú)立電源系統(tǒng)應(yīng)用的仿真研究

    仿真驗(yàn)證,可以實(shí)現(xiàn)變速恒顏發(fā)電。而且通過電壓的標(biāo)最控制可以實(shí)現(xiàn)系統(tǒng)輸出電壓的恒定。 純分享帖,點(diǎn)擊下方附件免費(fèi)獲取完整資料~~~ *附件:無刷雙饋電機(jī)獨(dú)立電源系統(tǒng)應(yīng)用的仿真
    發(fā)表于 06-25 13:08

    神經(jīng)網(wǎng)絡(luò)RAS異步電機(jī)轉(zhuǎn)速估計的仿真研究

    0 引言 高性能的異步電動機(jī)矢量控制,轉(zhuǎn)速的閉環(huán)控制環(huán)節(jié)一般是必不可少的。采用傳統(tǒng)的速度傳感器檢測轉(zhuǎn)速,由于速度傳感器安裝、維護(hù)、環(huán)境影響等方面會嚴(yán)重影響異步電動機(jī)調(diào)速系統(tǒng)的簡便
    發(fā)表于 06-16 21:54

    VirtualLab:準(zhǔn)直系統(tǒng)鬼像效應(yīng)的研究

    摘要 仿真技術(shù)的主要作用之一是提供一個平臺,以便在系統(tǒng)制造之前研究系統(tǒng)的性能,以便盡可能多地預(yù)防潛在的缺陷。雜散光是影響系統(tǒng)性能的最常見現(xiàn)象之一,雜散光可能有多個來源,其中包括
    發(fā)表于 05-15 10:20

    MATLAB工程的應(yīng)用

    電子發(fā)燒友網(wǎng)站提供《MATLAB工程的應(yīng)用.pdf》資料免費(fèi)下載
    發(fā)表于 04-19 16:54 ?9次下載