亚洲日本AⅤ片在线观看香蕉,黄色成人网站免费观看进入入口

摘要

小樣本學(xué)習(xí)（Few-shot Learning）近年來(lái)吸引了大量的關(guān)注，但是針對(duì)多標(biāo)簽問(wèn)題（Multi-label）的研究還相對(duì)較少。在本文中，我們以用戶(hù)意圖檢測(cè)任務(wù)為切入口，研究了的小樣本多標(biāo)簽分類(lèi)問(wèn)題。對(duì)于多標(biāo)簽分類(lèi)的SOTA方法往往會(huì)先估計(jì)標(biāo)簽-樣本相關(guān)性得分，然后使用閾值來(lái)選擇多個(gè)關(guān)聯(lián)的標(biāo)簽。

為了在只有幾個(gè)樣本的Few-shot場(chǎng)景下確定合適的閾值，我們首先在數(shù)據(jù)豐富的多個(gè)領(lǐng)域上學(xué)習(xí)通用閾值設(shè)置經(jīng)驗(yàn)，然后采用一種基于非參數(shù)學(xué)習(xí)的校準(zhǔn)（Calibration）將閾值適配到Few-shot的領(lǐng)域上。為了更好地計(jì)算標(biāo)簽-樣本相關(guān)性得分，我們將標(biāo)簽名稱(chēng)嵌入作為表示（Embedding）空間中的錨點(diǎn)，以?xún)?yōu)化不同類(lèi)別的表示，使它們?cè)诒硎究臻g中更好的彼此分離。在兩個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，所提出的模型在1-shot和5-shot實(shí)驗(yàn)均明顯優(yōu)于最強(qiáng)的基線(xiàn)模型（baseline）。

1．Introduction

1.1 背景一：用戶(hù)意圖識(shí)別

用戶(hù)意圖識(shí)別是任務(wù)型對(duì)話(huà)理解的關(guān)鍵組成部分，它的任務(wù)是識(shí)別用戶(hù)輸入的話(huà)語(yǔ)屬于哪一個(gè)領(lǐng)域的哪一種意圖 [1]。

當(dāng)下的用戶(hù)意圖識(shí)別系統(tǒng)面臨著兩方面的關(guān)鍵挑戰(zhàn)：

頻繁變化的領(lǐng)域和任務(wù)需求經(jīng)常導(dǎo)致數(shù)據(jù)不足

用戶(hù)在一輪對(duì)話(huà)中經(jīng)常會(huì)同時(shí)包含多個(gè)意圖 [2,3]

圖1. 示例：意圖理解同時(shí)面領(lǐng)域繁多帶來(lái)數(shù)據(jù)不足和多標(biāo)簽的挑戰(zhàn)

1.2 背景二：多標(biāo)簽分類(lèi) & 小樣本學(xué)習(xí)

小樣本學(xué)習(xí)（Few-shot Learning）旨在像人一樣利用少量樣本完成學(xué)習(xí)，近年來(lái)吸引了大量的關(guān)注 [4,5]。

但是針對(duì)多標(biāo)簽問(wèn)題的小樣本學(xué)習(xí)研究還相對(duì)較少。

1.3 本文研究?jī)?nèi)容

本文以用戶(hù)意圖檢測(cè)任務(wù)為切入口，研究了的小樣本多標(biāo)簽分類(lèi)問(wèn)題，并提出了Meta Calibrated Threshold (MCT) 和 Anchored Label Reps (ALR) 從兩個(gè)角度系統(tǒng)地為小樣本多標(biāo)簽學(xué)習(xí)提供解決方案。

2. Problem Definition

2.1 多標(biāo)簽意圖識(shí)別

如圖2所示，目前State-of-the-art多標(biāo)簽意圖識(shí)別系統(tǒng)往往使用基于閾值（Threshold）的方法 [3,6,7]，其工作流程可以大致分為兩步：

計(jì)算樣本-標(biāo)簽類(lèi)別相關(guān)性分?jǐn)?shù)

然后用預(yù)設(shè)或從數(shù)據(jù)學(xué)習(xí)的閾值選擇標(biāo)簽

2.2小樣本多標(biāo)簽用戶(hù)意圖識(shí)別

觀(guān)察一個(gè)給定的有少量樣例的支持集（Support Set）

預(yù)測(cè)未見(jiàn)樣本（Query Instance）的意圖標(biāo)簽

圖2. 小樣本多標(biāo)簽意圖識(shí)別框架概覽

3. 方法

圖3. 我們提出的小樣本多標(biāo)簽識(shí)別模型

3.1 閾值計(jì)算

（1）挑戰(zhàn)：

多標(biāo)簽分類(lèi)任務(wù)在小樣本情景下主要面臨如下挑戰(zhàn)：

a. 因?yàn)橐獜臄?shù)據(jù)中學(xué)習(xí)閾值，現(xiàn)有方法只適用于數(shù)據(jù)充足情況。小樣本情景下，模型很難從幾個(gè)樣本中歸納出閾值；

b. 此外，不同領(lǐng)域間閾值無(wú)法直接遷移，難以利用先驗(yàn)知識(shí)。

（2）解決方案：

為了解決上述挑戰(zhàn)，我們提出Meta Calibrated Threshold (MCT)，具體可以分為兩步（如圖3左邊所示）：

a. 首先在富數(shù)據(jù)領(lǐng)域，學(xué)習(xí)通用的thresholding經(jīng)驗(yàn)

b. 然后在Few-shot領(lǐng)域上，用Kernel Regression 來(lái)用領(lǐng)域內(nèi)的知識(shí)矯正閾值 (Calibration)

這樣，我們?cè)诠烙?jì)閾值時(shí)，既能遷移先驗(yàn)知識(shí)，又能利用領(lǐng)域特有的知識(shí)：

3.2 樣本-標(biāo)簽類(lèi)別相關(guān)度計(jì)算

（1）挑戰(zhàn)：

如圖4所示，經(jīng)典的小樣本方法利用相似度計(jì)算樣本-標(biāo)簽類(lèi)別相關(guān)性，這在多標(biāo)簽場(chǎng)景下會(huì)失效。

圖4. 經(jīng)典的基于相似度的小樣本學(xué)習(xí)模型：原型網(wǎng)絡(luò)

如圖3所示，例子中，time和location兩個(gè)標(biāo)簽因?yàn)閟upport example相同，導(dǎo)致這兩個(gè)類(lèi)別由樣本得到的表示相同不可分，進(jìn)而無(wú)法進(jìn)行基于相似度的樣本-類(lèi)別標(biāo)簽相關(guān)度計(jì)算。

（2）解決方案：

為了解決上述挑戰(zhàn)，我們提出了Anchored Label Reps (ALR)。具體的，如圖三右邊所示，我們

a. 利用標(biāo)簽名作為錨點(diǎn)來(lái)優(yōu)化Embedding空間學(xué)習(xí)

b. 利用標(biāo)簽名語(yǔ)義來(lái)分開(kāi)多標(biāo)簽下的類(lèi)別表示

4. 實(shí)驗(yàn)

4.1 主實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示，我們的方法在兩個(gè)數(shù)據(jù)集上顯著的優(yōu)于最強(qiáng)baseline。同時(shí)可以看到，我們的方法很多時(shí)候只用小的預(yù)訓(xùn)練模型就超過(guò)了所有使用大預(yù)訓(xùn)練模型的baseline，這在計(jì)算資源受限的情景下格外有意義。

表1. 主實(shí)驗(yàn)結(jié)果。+E 代表使用 Electra-small (14M)；+B為 BERT-base (110M)

4.2 實(shí)驗(yàn)分析

圖5的消融實(shí)驗(yàn)顯示所提出的ALR和MCT都對(duì)最終的效果產(chǎn)生了較大的貢獻(xiàn)。

圖5. 消融實(shí)驗(yàn)

在圖6中，我們對(duì)Meta Calibrated Threshold中各步驟對(duì)最終標(biāo)簽個(gè)數(shù)準(zhǔn)確率的影響進(jìn)行了探索。結(jié)果顯示Meta學(xué)習(xí)和基于Kernel Regression的Calibration過(guò)程都會(huì)極大地提升最終模型的準(zhǔn)確率。

圖6. 標(biāo)簽個(gè)數(shù)準(zhǔn)確率結(jié)果

參考文獻(xiàn)

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ′ 2013. Pomdp-based statistical spoken dialog systems: A review. In Proc. of the IEEE, volume 101, 1160–1179. IEEE.

[2] Xu, P.; and Sarikaya, R. 2013. Exploiting shared information for multi-intent natural language sentence classification. In Proc. of Interspeech, 3785–3789.

[3]Qin, L.; Xu, X.; Che, W.; and Liu, T. 2020. TD-GIN: Token-level Dynamic Graph-Interactive Network for Joint Multiple Intent Detection and Slot Filling. arXiv preprint arXiv:2004.10087 .

[4] Vinyals, O.; Blundell, C.; Lillicrap, T.; Kavukcuoglu, K.; and Wierstra, D. 2016. Matching networks for one shot learning. In Proc. of NeurIPS, 3630–3638.

[5] Bao, Y.; Wu, M.; Chang, S.; and Barzilay, R. 2020. Few-shot Text Classification with Distributional Signatures. In Proc. of the ICLR.

[6] Xu, G.; Lee, H.; Koo, M.-W.; and Seo, J. 2017. Convolutional neural network using a threshold predictor for multilabel speech act classification. In IEEE international conference on big data and smart computing (BigComp), 126–130.

[7]Gangadharaiah, R.; and Narayanaswamy, B. 2019. Joint Multiple Intent Detection and Slot Labeling for GoalOriented Dialog. In Proc. of the ACL, 564–569.

責(zé)任編輯：xj

原文標(biāo)題：【賽爾AAAI2021】小樣本學(xué)習(xí)下的多標(biāo)簽分類(lèi)問(wèn)題初探

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39820

瀏覽量
301485
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8554

瀏覽量
136978
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5599

瀏覽量
124405