亚洲精品A区草草草久久视频,久久久夜色精品亚洲A,荣耀x70建议买吗

研究動機

對齊不同模態(tài)的語義是多模態(tài)預(yù)訓練(VLP)模型的一個重要能力。然而，VLP模型的內(nèi)部對齊機制是不可知的。許多研究已經(jīng)關(guān)注到這個問題，其中一個主流方法是通過精心設(shè)計的分類探針實驗來探究模型的對齊能力[1, 2]。但是我們認為簡單的分類任務(wù)不能準確地探究的這個問題：第一，這些分類任務(wù)仍然將VLP模型當作黑盒子，只能從分類任務(wù)的指標上分析模型在某一個方面的對齊效果；第二，很多分類任務(wù)只需要使用圖片-文本對中的部分信息就可以完成（例如一個區(qū)域，一個詞組或者兩者都使用）。

圖1:給出1張圖片與6個句子，測試不同的VLP模型會選擇哪個句子與圖片最匹配

為了進一步說明這一點，圖1展示了1張圖片和6個句子，其中句子(a)是對圖片的合理描述，(b)-(f)是不可讀的5個句子。令人驚訝的是，我們測試的5個預(yù)訓練模型都沒有選擇合理的描述(a)，這促使我們?nèi)ド钊胙芯縑LP模型會認為哪一種句子是更符合圖片的，即從文本視角探究多模態(tài)預(yù)訓練模型的語義對齊機制。

如果人工去生成圖1所示的不可讀的句子，然后再去測試VLP模型是否對其有偏好是非常困難的，本文則考慮利用自動化的方式生成VLP模型偏好的句子。具體而言，我們可以把VLP模型認為哪個句子更好（匹配分數(shù)越大）作為一種反饋，來訓練一個多模態(tài)生成模型，通過最大化匹配分數(shù)來生成為圖片生成描述。通過這種方式，生成模型會放大VLP模型對句子的偏好并反映到生成的句子中。所以我們提出一個新的探針實驗：使用圖像描述(captioning)模型，通過分析生成的句子來探究VLP模型的多模態(tài)的語義對齊機制。

貢獻

1.我們提出了一個新的探針實驗：使用圖像描述模型，通過分析生成描述來探究VLP模型的多模態(tài)的語義對齊機制。

2.我們在5個主流VLP模型上進行了探針實驗，通過captioning模型生成的句子，分析了每一個VLP模型的語義對齊能力。

3.通過5個VLP模型反映出的對齊問題，總結(jié)了目前VLP模型存在的3個缺陷并進行了驗證。

探針實驗與分析

我們選擇了5個主流的VLP模型，包括UNITER[3]，ROSITA[4]，ViLBERT[5]，CLIP[6]以及LXMERT[7]。

我們使用COCO數(shù)據(jù)集作為我們探針實驗數(shù)據(jù)集，使用FC model[8]作為實驗的captioning模型。由于VLP的匹配分數(shù)不能直接反饋到圖像描述模型，所以我們使用SCST[8]的方法來優(yōu)化。

經(jīng)過VLP模型匹配分數(shù)的優(yōu)化后，captioning模型生成的句子可以獲得很高的匹配分數(shù)（表1左邊所示），這說明VLP模型認為這些句子與圖片更匹配了。直覺上，這些句子應(yīng)該更好地描述了圖像中的內(nèi)容，但是我們使用圖像描述指標測試這些句子卻發(fā)現(xiàn)，它們的指標下降了非常多（表1右邊所示），這促使我們?nèi)z查一下生成的句子發(fā)生了哪些變化。

表1:生成句子在圖像描述指標和VLP模型匹配分數(shù)上的測試結(jié)果。CE表示使用cross-entropy作為loss訓練的基礎(chǔ)模型。

圖2經(jīng)過不同VLP模型的匹配分數(shù)優(yōu)化后生成的句子

圖2展示了經(jīng)過匹配分數(shù)優(yōu)化后生成的的句子，我們可以發(fā)現(xiàn)幾乎所有的句子都已經(jīng)變得不可讀。我們從困惑度(perplexity),句子長度，視覺詞的數(shù)量等角度對這些句子進行定量分析，發(fā)現(xiàn)這些句子已經(jīng)與CE模型生成的句子有了非常大的變化(如表2所示)。不僅如此，我們還發(fā)現(xiàn)每一個VLP模型似乎都對某些固定的句式有偏好，如圖2中，被CLIP優(yōu)化的captioning模型，生成的句子的前綴帶(prefix)經(jīng)常含有與“a image of”相關(guān)的詞組。我們利用正則表達式，對這些句子的句式(pattern)進行進行總結(jié)(表3)，可以發(fā)現(xiàn)每一個VLP模型都有自己偏好的句式。

表2生成句子的困惑度，長度，視覺詞數(shù)量的統(tǒng)計信息

表3生成句子的句式統(tǒng)計

VLP模型的缺陷

通過上述對生成句子的定量分析，我們發(fā)現(xiàn)現(xiàn)在的預(yù)訓練模型主要存在3個缺陷。為了驗證這3個發(fā)現(xiàn)，我們使用了COCO測試集中的5000張圖片。

(a)VLP模型在判斷一個圖片-句子對是否匹配的時候過于依賴圖片中的區(qū)域特征和句子中的視覺詞，而忽視了全局的語義信息是否對齊。

我們對CE生成的句子進行兩種處理：替換視覺詞(Replacing visual words)和替換非視覺詞(Replacing other words)。從圖3中我們可以發(fā)現(xiàn)替換視覺詞會使得VLP模型的匹配分數(shù)大幅下降，但是替換非視覺詞只會讓匹配分數(shù)下降一點。需要注意的是，替換了非視覺詞后的句子是不可讀的，但是模型還是會認為這些不可讀句子與圖片是匹配的。

圖3替換視覺詞與替換非視覺詞的匹配分數(shù)與原始分數(shù)的對比

(b)VLP模型會對偏好某些固定的句式，因此忽視了更重要的文本信息，如流暢度，語法等。

我們利用表3發(fā)現(xiàn)的句式，提取出CE句子的視覺詞，把視覺詞填補到這些句式中。我們僅僅是改變了句子的結(jié)構(gòu)，就可以使得這些句子的匹配分數(shù)大幅提高(表4所示)。

表4重構(gòu)后句子的匹配分數(shù)

(c)VLP模型認為包含更多視覺詞的句子更匹配圖片，這會弱化圖片中關(guān)鍵物體的作用。

我們把每張圖片的ground-truth中的視覺詞先提取出來，然后每次填充k (k=3，4，5，6，7)個到句式模版中。從圖4中可以看出，隨著視覺詞的增加，重構(gòu)句子的匹配分數(shù)越來越高。

圖4含有k個視覺詞句子的匹配分數(shù)

總結(jié)

在本文中，我們利用圖像描述模型提出一個新穎的探針方法。通過這個方法，我們從文本角度分析了VLP模型的語義對齊機制。我們發(fā)現(xiàn)現(xiàn)有的VLP模型在對齊方面有明顯的缺陷。我們希望這些發(fā)現(xiàn)可以促進研究者設(shè)計更合理的模型結(jié)構(gòu)或預(yù)訓練任務(wù)。同時，研究者也可以使用我們的探針方法，分析其設(shè)計的VLP模型是否存在缺陷。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3755

瀏覽量
52121
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26202

原文標題：EMNLP'22 Findings | 南大提出：從文本視角探究多模態(tài)預(yù)訓練模型的語義對齊能力

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

基于VLP模型的語義對齊機制

評論