国模在线播放国产成人综,亚洲日韩另类校园

TL; DR

在情感分類中，一些good features，比如”good“、”nice“表示積極，”bad“、“terrible”表示消極。但是，還有許多common features，比如voice、screen就沒有特別的情感性。

盡管深度學(xué)習(xí)擁有強(qiáng)大的representation learning（表征學(xué)習(xí)，即同一個(gè)數(shù)據(jù)用不同的表示形式）。但我們認(rèn)為還有可以改進(jìn)的地方。

在本文中，我們提出了一種新的角度來進(jìn)一步改善這種表示學(xué)習(xí)，即特征投影（feature projection）：將現(xiàn)有特征投影到common特征的正交空間中。

所得的投影向量垂直于common特征，能更好的進(jìn)行分類。

將該方法用于改進(jìn)基于CNN，RNN，Transformer和Bert的文本分類模型，獲得更好的結(jié)果。

網(wǎng)絡(luò)結(jié)構(gòu)

Feature Purification Network 特征凈化網(wǎng)絡(luò)

模型分為兩部分：

projection network (P-net)；

common feature learning network (C-net)

P-net：計(jì)算凈化的向量特征，通過將學(xué)習(xí)到的輸入文本的信息向量投影到更具區(qū)分性的語義空間中來消除共同特征的影響。

C-net：提取common features。

P-net由四部分組成：

輸入層X

特征提取器Fp

正交投影層（OPL，Orthogonal Projection Layer）

分類層Cp

C-net也由四部分組成：

輸入層X

特征提取器Fc（Fp和Fc的參數(shù)不共享）

漸變反向?qū)樱℅RL，Gradient Reverse Layer）

分類層Cc

技術(shù)的關(guān)鍵思想如下：

P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是說，將fp（從輸入文檔中提取的完整信息）投影到更具區(qū)分性的語義空間中，以進(jìn)行最終分類。

圖2：正交投影層的工作方式。這里的示例是在二維空間中。

fp表示傳統(tǒng)特征向量;

fc表示公共特征向量;

fp?是投影特征向量;

fp~是最終的正交投影特征向量。

我們首先將傳統(tǒng)特征向量fp投影到共同特征向量fc，得到fp?。

等式9中的fp?即表示對(duì)共同特征向量fc的約束。

再將fp投影到fp-fp*得到fp~

也就是說：通過將輸入的傳統(tǒng)特征向量fp投影到公共特征向量fc來限制公共特征向量的模，因此新的公共特征向量fp*的語義信息僅包含xi的公共語義信息。

這使得最終的純化特征向量fp~來自傳統(tǒng)特征向量fp，而不是與公共特征向量fc正交的任何平面中的任何向量。

最后，我們使用純化的特征向fp~進(jìn)行分類。

Experiments實(shí)驗(yàn)

1 實(shí)驗(yàn)使用數(shù)據(jù)集

2 Baselines模型

用LSTM、CNN、Transformer和BERT等基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn)，已驗(yàn)證特征投射的有效性。

3 實(shí)施細(xì)節(jié)

首先，我們將實(shí)驗(yàn)中的所有詞嵌入隨機(jī)初始化為200維向量，然后在訓(xùn)練過程中進(jìn)行修改（Bert除外）。對(duì)于每種類型的特征提取器，我們具有以下配置：

對(duì)于RNN模型，使用兩層LSTM進(jìn)行特征提取，每層的hidden state=256；

對(duì)于CNN模型，為了獲得更多的細(xì)粒度特征，我們分別使用了[2,3,4,5,6]的濾波器大小，每個(gè)濾波器都有100個(gè)特征圖。

對(duì)于Transformer的模型，我們使用Transformer的編碼器作為特征提取器，使用單頭和3個(gè)block。

對(duì)于Bert模型，我們微調(diào)了預(yù)訓(xùn)練的基于Bert的參數(shù)。這些設(shè)置與FP-Net中的基線完全相同。

在C-net模塊的訓(xùn)練中，我們以0.9為初始學(xué)習(xí)率的隨機(jī)梯度和隨后的退火學(xué)習(xí)率（Ganin and Lempitsky，2014）。

其中，訓(xùn)練進(jìn)度p從0線性變化為1，l0 = 0.01，α= 10和β= 0.75。在GRL中，超參數(shù)λ為[0.05,0.1,0.2,0.4,0.8,1.0]。

4 實(shí)驗(yàn)結(jié)果

5 消融實(shí)驗(yàn)與分析

消融實(shí)驗(yàn)類似于“控制變量法”。假設(shè)在某任務(wù)中，使用了A，B，C，取得了不錯(cuò)的效果，但是這個(gè)時(shí)候你并不知道效果是由A，B，C中哪一個(gè)起的作用，于是你保留A，B，移除C進(jìn)行實(shí)驗(yàn)來看一下C在整個(gè)任務(wù)中所起的作用。

結(jié)論

在本文中，我們提出了一種新的特征凈化網(wǎng)絡(luò)（FP-Net），以改進(jìn)文本分類的表示；

該方法基于特征投影。所提出的模型使用兩個(gè)子網(wǎng)，一個(gè)用于識(shí)別對(duì)分類沒有區(qū)別的共同特征common features，另一個(gè)用于將傳統(tǒng)特征投射到共同特征的正交方向的特征投影；

我們當(dāng)前的方法僅用于傳統(tǒng)文本分類方法，例如LSTM，CNN和Transformer。在未來的工作中，我們將考慮將其擴(kuò)展到基于圖的方法（例如用于圖形數(shù)據(jù)的GCN），以及擴(kuò)展到基于生成的方法（例如用于對(duì)抗性學(xué)習(xí)的GAN）。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴