91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于改進(jìn)文本分類的特征投影

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2021-03-05 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TL; DR

在情感分類中,一些good features,比如”good“、”nice“表示積極,”bad“、“terrible”表示消極。但是,還有許多common features,比如voice、screen就沒有特別的情感性。

盡管深度學(xué)習(xí)擁有強(qiáng)大的representation learning(表征學(xué)習(xí),即同一個(gè)數(shù)據(jù)用不同的表示形式)。但我們認(rèn)為還有可以改進(jìn)的地方。

在本文中,我們提出了一種新的角度來進(jìn)一步改善這種表示學(xué)習(xí),即特征投影(feature projection):將現(xiàn)有特征投影到common特征的正交空間中。

所得的投影向量垂直于common特征,能更好的進(jìn)行分類。

將該方法用于改進(jìn)基于CNN,RNN,Transformer和Bert的文本分類模型,獲得更好的結(jié)果。

網(wǎng)絡(luò)結(jié)構(gòu)

Feature Purification Network 特征凈化網(wǎng)絡(luò)

模型分為兩部分:

projection network (P-net);

common feature learning network (C-net)

P-net:計(jì)算凈化的向量特征,通過將學(xué)習(xí)到的輸入文本的信息向量投影到更具區(qū)分性的語義空間中來消除共同特征的影響。

C-net:提取common features。

P-net由四部分組成:

輸入層X

特征提取器Fp

正交投影層(OPL,Orthogonal Projection Layer)

分類層Cp

C-net也由四部分組成:

輸入層X

特征提取器Fc(Fp和Fc的參數(shù)不共享)

漸變反向?qū)樱℅RL,Gradient Reverse Layer)

分類層Cc

技術(shù)的關(guān)鍵思想如下:

P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是說,將fp(從輸入文檔中提取的完整信息)投影到更具區(qū)分性的語義空間中,以進(jìn)行最終分類。

圖2:正交投影層的工作方式。這里的示例是在二維空間中。

fp表示傳統(tǒng)特征向量;

fc表示公共特征向量;

fp?是投影特征向量;

fp~是最終的正交投影特征向量。

我們首先將傳統(tǒng)特征向量fp投影到共同特征向量fc,得到fp?。

等式9中的fp?即表示對(duì)共同特征向量fc的約束。

再將fp投影到fp-fp*得到fp~

也就是說:通過將輸入的傳統(tǒng)特征向量fp投影到公共特征向量fc來限制公共特征向量的模,因此新的公共特征向量fp*的語義信息僅包含xi的公共語義信息。

這使得最終的純化特征向量fp~來自傳統(tǒng)特征向量fp,而不是與公共特征向量fc正交的任何平面中的任何向量。

最后,我們使用純化的特征向fp~進(jìn)行分類。

Experiments實(shí)驗(yàn)

1 實(shí)驗(yàn)使用數(shù)據(jù)集

2 Baselines模型

用LSTM、CNN、Transformer和BERT等基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),已驗(yàn)證特征投射的有效性。

3 實(shí)施細(xì)節(jié)

首先,我們將實(shí)驗(yàn)中的所有詞嵌入隨機(jī)初始化為200維向量,然后在訓(xùn)練過程中進(jìn)行修改(Bert除外)。對(duì)于每種類型的特征提取器,我們具有以下配置:

對(duì)于RNN模型,使用兩層LSTM進(jìn)行特征提取,每層的hidden state=256;

對(duì)于CNN模型,為了獲得更多的細(xì)粒度特征,我們分別使用了[2,3,4,5,6]的濾波器大小,每個(gè)濾波器都有100個(gè)特征圖。

對(duì)于Transformer的模型,我們使用Transformer的編碼器作為特征提取器,使用單頭和3個(gè)block。

對(duì)于Bert模型,我們微調(diào)了預(yù)訓(xùn)練的基于Bert的參數(shù)。這些設(shè)置與FP-Net中的基線完全相同。

在C-net模塊的訓(xùn)練中,我們以0.9為初始學(xué)習(xí)率的隨機(jī)梯度和隨后的退火學(xué)習(xí)率(Ganin and Lempitsky,2014)。

其中,訓(xùn)練進(jìn)度p從0線性變化為1,l0 = 0.01,α= 10和β= 0.75。在GRL中,超參數(shù)λ為[0.05,0.1,0.2,0.4,0.8,1.0]。

4 實(shí)驗(yàn)結(jié)果

5 消融實(shí)驗(yàn)與分析

消融實(shí)驗(yàn)類似于“控制變量法”。假設(shè)在某任務(wù)中,使用了A,B,C,取得了不錯(cuò)的效果,但是這個(gè)時(shí)候你并不知道效果是由A,B,C中哪一個(gè)起的作用,于是你保留A,B,移除C進(jìn)行實(shí)驗(yàn)來看一下C在整個(gè)任務(wù)中所起的作用。

結(jié)論

在本文中,我們提出了一種新的特征凈化網(wǎng)絡(luò)(FP-Net),以改進(jìn)文本分類的表示;

該方法基于特征投影。所提出的模型使用兩個(gè)子網(wǎng),一個(gè)用于識(shí)別對(duì)分類沒有區(qū)別的共同特征common features,另一個(gè)用于將傳統(tǒng)特征投射到共同特征的正交方向的特征投影;

我們當(dāng)前的方法僅用于傳統(tǒng)文本分類方法,例如LSTM,CNN和Transformer。在未來的工作中,我們將考慮將其擴(kuò)展到基于圖的方法(例如用于圖形數(shù)據(jù)的GCN),以及擴(kuò)展到基于生成的方法(例如用于對(duì)抗性學(xué)習(xí)的GAN)。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7468
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124419
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23432

原文標(biāo)題:【ACL2020】用于改進(jìn)文本分類的特征投影

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    激光投影儀 CE 認(rèn)證的特殊測(cè)試要求

    激光投影儀因亮度高、壽命長(zhǎng)、體積小,已成為歐盟市場(chǎng)的主流產(chǎn)品之一。但與傳統(tǒng)燈泡投影儀相比,激光投影在 CE 認(rèn)證中有更嚴(yán)格、也更容易踩坑的合規(guī)要求。如果只按普通投影儀思路去做 CE,很
    的頭像 發(fā)表于 02-10 17:48 ?364次閱讀
    激光<b class='flag-5'>投影</b>儀 CE 認(rèn)證的特殊測(cè)試要求

    機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機(jī)器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?346次閱讀
    機(jī)器學(xué)習(xí)<b class='flag-5'>特征</b>工程:<b class='flag-5'>分類</b>變量的數(shù)值化處理方法

    詳解DBC的Signal與JSON文本結(jié)合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動(dòng)輸入狀態(tài)對(duì)應(yīng)數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結(jié)合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?306次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結(jié)合

    投影儀NOM認(rèn)證

    投影儀出口墨西哥需要進(jìn)行NOM認(rèn)證(NormaOficialMexicana),以確保產(chǎn)品符合墨西哥在電氣安全、電磁兼容性(EMC)以及能效等方面的強(qiáng)制性標(biāo)準(zhǔn)。此外,如果投影儀帶有無線功能(如
    的頭像 發(fā)表于 10-31 14:28 ?585次閱讀
    <b class='flag-5'>投影</b>儀NOM認(rèn)證

    基于級(jí)聯(lián)分類器的人臉檢測(cè)基本原理

    本次分享的內(nèi)容是基于級(jí)聯(lián)分類器的人臉檢測(cè)基本原理 1) 人臉檢測(cè)概述 關(guān)于人臉檢測(cè)算法,目前主流方法分為兩類,一類是基于知識(shí),主要方法包括模板匹配,人臉特征,形狀和邊緣,紋理特征,顏色特征
    發(fā)表于 10-30 06:14

    多光譜圖像顏色特征用于茶葉分類的研究進(jìn)展

    多光譜成像技術(shù)結(jié)合顏色特征分析為茶葉分類提供了高效、非破壞性的解決方案。本文系統(tǒng)綜述了該技術(shù)的原理、方法、應(yīng)用案例及挑戰(zhàn),探討了其在茶葉品質(zhì)分級(jí)、品種識(shí)別和產(chǎn)地溯源中的研究進(jìn)展,并展望了未來發(fā)展方向
    的頭像 發(fā)表于 10-17 17:09 ?606次閱讀
    多光譜圖像顏色<b class='flag-5'>特征用于</b>茶葉<b class='flag-5'>分類</b>的研究進(jìn)展

    格靈深瞳突破文本人物檢索技術(shù)難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊(duì)通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動(dòng)CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(huì)(自然語言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一)。
    的頭像 發(fā)表于 09-28 09:42 ?640次閱讀
    格靈深瞳突破<b class='flag-5'>文本</b>人物檢索技術(shù)難題

    星空投影燈方案開發(fā)設(shè)計(jì)案例

    在科技與浪漫的交匯處,一款能夠?qū)⒑棋强諠饪s于掌心的投影儀,無疑是現(xiàn)代生活中的點(diǎn)睛之筆。無論是為臥室增添一抹夢(mèng)幻色彩,還是作為一份獨(dú)特的禮物。然而,如何在有限的成本內(nèi)實(shí)現(xiàn)卓越的投影效果,一直是行業(yè)
    發(fā)表于 09-03 15:45

    NanoEdge AI生成的模型庫,在keil里面編譯后運(yùn)行,返回都是0,沒挑出單分類,怎么解決?

    我打算識(shí)別具有特定特征的曲線,我按照單分類進(jìn)行訓(xùn)練。2維數(shù)據(jù),輸入時(shí)間序列數(shù)據(jù),得分90+分,得到模型后。驗(yàn)證得分90+,我就在keil里面使用驗(yàn)證所用的數(shù)據(jù),挑選了一些無特征和有特征
    發(fā)表于 08-12 07:52

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗(yàn)

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡(jiǎn)稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?649次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗(yàn)

    風(fēng)華貼片電感的標(biāo)準(zhǔn)分類體系

    作為國(guó)內(nèi)電子元器件領(lǐng)域的領(lǐng)軍企業(yè),風(fēng)華高科通過構(gòu)建多維度分類體系,實(shí)現(xiàn)了貼片電感產(chǎn)品的精準(zhǔn)定位與高效應(yīng)用。其分類邏輯融合了結(jié)構(gòu)特征、功能特性及場(chǎng)景適配性,形成了涵蓋產(chǎn)品形態(tài)、技術(shù)參數(shù)、應(yīng)用領(lǐng)域
    的頭像 發(fā)表于 05-19 14:04 ?672次閱讀
    風(fēng)華貼片電感的標(biāo)準(zhǔn)<b class='flag-5'>分類</b>體系

    在友晶LabCloud平臺(tái)上使用PipeCNN實(shí)現(xiàn)ImageNet圖像分類

    利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像分類是通過使用多個(gè)卷積層來從輸入數(shù)據(jù)中提取特征,最后通過分類層做決策來識(shí)別出目標(biāo)物體。
    的頭像 發(fā)表于 04-23 09:42 ?1096次閱讀
    在友晶LabCloud平臺(tái)上使用PipeCNN實(shí)現(xiàn)ImageNet圖像<b class='flag-5'>分類</b>

    把樹莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?992次閱讀
    把樹莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?8913次閱讀
    ?VLM(視覺語言模型)?詳細(xì)解析