人人爱91视频欧美播放器,国摸一区二区激情六月婷婷

論文標(biāo)題：Enhancing CTR Prediction with Context-Aware Feature Representation Learning

收錄會(huì)議：

SIGIR 2022

論文鏈接：

https://arxiv.org/abs/2204.08758

簡(jiǎn)介與主要貢獻(xiàn)

目前大多數(shù)提升點(diǎn)擊率預(yù)估效果的模型主要是通過(guò)建模特征交互，但是如何設(shè)計(jì)有效的特征交互結(jié)構(gòu)需要設(shè)計(jì)人員對(duì)數(shù)據(jù)特點(diǎn)以及結(jié)構(gòu)設(shè)計(jì)等方面有很強(qiáng)的要求。目前的以建模特征交互為主的模型可以總結(jié)為三層范式：embedding layer， feature interaction layer，以及 prediction layer。大多數(shù)論文改進(jìn)集中在 Featrue interaction layer。

然而大部分的模型都存在一個(gè)問(wèn)題：對(duì)于一個(gè)相同的特征，他們僅僅學(xué)到了一個(gè)固定的特征表示，而沒(méi)有考慮到這個(gè)特征在不同實(shí)例中不同上下文環(huán)境下的重要性。例如實(shí)例 1：{female, white, computer, workday} 和實(shí)例 2：{female, red, lipstick, workday} 中，特征 “female” 在這兩個(gè)實(shí)例中的重要性（對(duì)最后的預(yù)測(cè)結(jié)果的影響或者與其他特征的關(guān)系）是不同的，因此在輸入特征交互層之前我們就可以調(diào)整特征 “female” 的重要性或者是表示。

現(xiàn)有的工作已經(jīng)注意到了這個(gè)問(wèn)題，例如 IFM、DIFM 等，但是他們僅僅在不同的實(shí)例中為相同特征賦予不同的權(quán)重（vector-level weights），導(dǎo)致不同實(shí)例中的相同特征的表示存在嚴(yán)格的線性關(guān)系，而這顯然是不太合理的。

另一方面，本文希望一個(gè)理想的特征細(xì)化模塊應(yīng)該識(shí)別重要的跨實(shí)例上下文信息，并學(xué)習(xí)不同上下文下顯著不同的表示。

給出了一個(gè)例子：{female, red, lipstick, workday} and {female, red, lipstick, weekend}，在這兩個(gè)實(shí)例匯總，如果使用self-attention（在 CTR 中很常用的模塊，來(lái)識(shí)別特征之間的關(guān)系），那么因?yàn)?“female”和“red”以及“l(fā)ipstick”的關(guān)系比“workday”或者“weekend”的更加緊密，所以在兩個(gè)實(shí)例中，都會(huì)賦予“red”和“l(fā)ipstick”更大的注意力權(quán)重，而對(duì)“workday”或者“weekend”的權(quán)重都很小。但是用戶(hù)的行為會(huì)隨著“workday”到“weekend”的變化而變化。

因此本文提出了一個(gè)模型無(wú)關(guān)的模塊 Feature Refinement Network（FRNet）來(lái)學(xué)習(xí)上下文相關(guān)的特征表示，能夠使得相同的特征在不同的實(shí)例中根據(jù)與共現(xiàn)特征的關(guān)系以及完整的上下文信息進(jìn)行調(diào)整。主要貢獻(xiàn)如下：

本文提出了一個(gè)名為 FRNet 的新模塊，它是第一個(gè)通過(guò)將原始和互補(bǔ)的特征表示與比特級(jí)權(quán)值相結(jié)合來(lái)學(xué)習(xí)上下文感知特征表示的工作。

FRNet 可以被認(rèn)為是許多 CTR 預(yù)測(cè)方法的基本組成部分，可以插入在 embedding layer 之后，提高 CTR 預(yù)測(cè)方法的性能。

FRNet 表現(xiàn)出了極強(qiáng)集兼容性和有效性。

FRNet模塊

FRNet模型主要包含兩個(gè)模塊：

Information Extraction Unit (IEU)：IEU 主要是來(lái)捕獲上下文相關(guān)的信息（Self-Attention unit）以及特征之間的關(guān)系信息（Contextual Information Extractor）來(lái)共同學(xué)習(xí)上下文相關(guān)的信息。再 Integration unit 進(jìn)行融合。

Complementary Selection Gate (CSGate)：CSGate 可以自適應(yīng)融合原始的和互補(bǔ)的特征表示，這種融合是在 bit-level 級(jí)別上的。

2.1 IEU

通過(guò)對(duì)以往模型的總結(jié)，F(xiàn)RNet 主要通過(guò)學(xué)習(xí)特征間的關(guān)系（vector-level）以及上下文相關(guān)的信息（bit-level）的信息來(lái)學(xué)習(xí)最后的 context-aware representation。首先在在 IEU 中使用以下兩個(gè)模塊：

Self-Attention unit：self-attention 善于學(xué)習(xí)特征之間的關(guān)聯(lián)信息。FRNet 中使用了一個(gè)基本的 Self-attention 結(jié)構(gòu)。

Contextual Information Extractor：在 motivation 部分提到過(guò)，self-attention 雖然擅長(zhǎng)學(xué)習(xí)特征之間的關(guān)系，但是無(wú)法學(xué)習(xí)整體的上下文信息。所以特地使用了一個(gè)簡(jiǎn)單的 DNN 模塊來(lái)提取不同實(shí)例的上下文信息。一個(gè)之間的理由是 DNN 可以關(guān)注到所有的特征信息（bit-level 信息）。

以上兩個(gè)單元分別學(xué)習(xí)了特征之間的關(guān)系，對(duì)輸入信息進(jìn)行壓縮，保存了特征的上下文信息。接下來(lái)通過(guò)一個(gè) Integration unit 對(duì)這兩部分信息進(jìn)行融合：

可以看到每個(gè)實(shí)例只有一個(gè)上下文信息維度為 d，而經(jīng)過(guò) self-attention 之后的關(guān)系信息維度是 f*d。所以融合之后相當(dāng)于賦予了每個(gè)特征上下文信息，而這部分信息僅僅 self-attention 是無(wú)法獲取的。

2.2 CSGate

從圖 2 中可以看到，本文使用了兩個(gè) IEU 模型，其中模塊學(xué)習(xí)了一組 complementary feature representaion ，學(xué)習(xí)了一組權(quán)重矩陣 ?；?、以及原始的特征表示，F(xiàn)RNet 通過(guò)一個(gè)選擇門(mén)獲得了最后的 context-aware feature representation：

公式主要分為兩部分：

Selected features：首先最后的結(jié)果并沒(méi)有完全舍棄原有的特征表示 E，但是也沒(méi)有像 ResNet 那樣將原始表示 E 直接保留，而是通過(guò)權(quán)重矩陣進(jìn)行自適應(yīng)的選擇。

Complementary features：另一方面，如果僅僅使用原有的特征也會(huì)導(dǎo)致模型的表達(dá)能力受限?，F(xiàn)有的一些方法也僅僅通過(guò)分配一個(gè)權(quán)重的方法來(lái)對(duì)特征進(jìn)行調(diào)整。同時(shí)僅僅分配權(quán)重沒(méi)有考慮哪些 unselected information。在計(jì)算權(quán)重的時(shí)候使用可 sigmoid 方式，如果只使用選擇的一部分信息，會(huì)導(dǎo)致最后的信息

“不完整”（這里有點(diǎn)借鑒 GRU 以及 LSTM 的設(shè)計(jì)思路）。因?yàn)槲覀儚幕パa(bǔ)矩陣上選擇互補(bǔ)的信息。

實(shí)驗(yàn)分析

實(shí)驗(yàn)數(shù)據(jù)集：

3.1 整體分析

主要將 FRNet 應(yīng)用到 FM 模型中說(shuō)明 FRNet 的效果。這一部分說(shuō)明了 FRNet 的效果和效率。

3.2 兼容性分析

將 FRNet 應(yīng)用到其他模型中查看效果。和其他模塊進(jìn)行對(duì)比。

3.3 超參數(shù)分析

對(duì) IEU 模塊中的兩個(gè)超參數(shù)進(jìn)行了分析：

DNN 的層數(shù)

Self-attention 的 attention size

3.4 消融分析

通過(guò)消融實(shí)驗(yàn)來(lái)說(shuō)明 FRNet 中的設(shè)計(jì)都是有效的：

Learning context-aware feature representations是有效的。這里面所有的變式都對(duì)原始的特征進(jìn)行改進(jìn)，從而獲得了更好的效果（和#1對(duì)比）

Cross-feature relationships and contextual information 是必要的。#2中學(xué)習(xí)了特征之間的關(guān)系，超過(guò)了 #1。#13 和 #3 學(xué)習(xí)了 contextual information，分別超過(guò)了 #4 和 #2。

Assigning weights to original features 是合理的。#5 移除了權(quán)重信息，發(fā)現(xiàn) #10 和 #11 超過(guò)了 #5。同時(shí) #6 和 #7 超過(guò)了 #1 也說(shuō)明了相同的結(jié)論。

Learning bit-level weights is more effective than learning vector-level。（#7, #9, #11, #13）超過(guò)了對(duì)應(yīng)的（#6, #8, #10, #12），前者學(xué)習(xí)位級(jí)別的權(quán)重，而后者學(xué)習(xí)向量級(jí)別的權(quán)重。

Complementary Features 也是很關(guān)鍵的. 添加了輔助特征之后 #10，#11 分別超過(guò)了 #6 和 #7。而且 #12 和 #13 分別超過(guò)了 #10 和 #11，說(shuō)明給輔助特征分配權(quán)重也是必要的。

3.5 特征表示可視化分析

本文的 context-aware feature representation 總結(jié)起來(lái)就是一句話：相同的特征在不同的實(shí)例下應(yīng)該有不同的表示，而且不同實(shí)例下的表示不應(yīng)該有嚴(yán)格的線性關(guān)系。為了說(shuō)明這一點(diǎn)，本文通過(guò)可視化的方式進(jìn)行了說(shuō)明。圖中都是同一個(gè)特征的原始表示和 1000 個(gè)不同實(shí)例中經(jīng)過(guò) FRNet（或者其他模塊）之后的表示。

EGate 無(wú)法學(xué)習(xí)不同的表示；DIFM 學(xué)到的表示存在嚴(yán)格的線性關(guān)系。而 FRNet 學(xué)到的表示同時(shí)解決了這些問(wèn)題。

#6 也是學(xué)習(xí)向量級(jí)別的權(quán)重，但是和 DIFM 比可以看到，使用 IEU 學(xué)到的權(quán)重可以使得特征空間更加分明。#6 中沒(méi)有添加輔助特征，所以可以看到還是存在線性關(guān)系的，而 FRNet-vec 中添加了輔助特征，消除了線性關(guān)系。

FRNet 是學(xué)習(xí) bit-level 的權(quán)重，而 FRNet-vec 是學(xué)習(xí)向量級(jí)別的權(quán)重，從分區(qū)的形狀可以看到 FRNet 的非線性特征更加顯著，即更加集中。

3.6 IEU可視化分析

前面說(shuō)到 Self-attention 中存在的問(wèn)題：在大部分特征都相同的情況下，無(wú)法區(qū)分某些不重要的特征表示。在這個(gè)實(shí)驗(yàn)中，選擇了兩個(gè)特征（只有一個(gè)特征是不同的，其他特征都相同），在經(jīng)過(guò) self-attention 之后，獲得的表示都是相同的。但是在經(jīng)過(guò) CIE（DNN）壓縮之后，可以看到僅僅因?yàn)檫@一個(gè)特征的不同，最后獲得的表示是權(quán)重不同的，而這就是 self-attention 無(wú)法學(xué)習(xí)的上下文信息。最后 IEU 將上下文信息融合到 self-attention 中獲得了圖 8（c）的效果：兩個(gè)實(shí)例中的每一組對(duì)應(yīng)特征都有顯著的差別。

3.7 bit-level權(quán)重分析

匯總分析了權(quán)重矩陣在 100K 個(gè)實(shí)例中分布情況。通過(guò)均值可以看出來(lái) 57.8% 的概率選擇原始特征表示，而 42.2% 的概率選擇互補(bǔ)特征。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴