国产久久A√视频免费看,看韩日黄色片爱婷婷av

香港中文大學（深圳）和清華大學聯(lián)合完成的后門防御工作被NeurIPS 2022接收為Spotlight論文?；谕抖镜暮箝T攻擊對由不可信來源數(shù)據(jù)所訓練的模型構(gòu)成了嚴重威脅。給定一個后門模型，我們觀察到，相較于干凈樣本，毒性樣本的特征表示對數(shù)據(jù)變換更加敏感。這啟發(fā)我們設計了一個簡單的敏感性度量——“針對數(shù)據(jù)變換的特征一致性(FCT)”，并基于FCT設計了一個樣本區(qū)分模塊，用以區(qū)分不可信訓練集中的毒性樣本和干凈樣本。此外，基于上述模塊，我們提出了兩種有效的后門防御方法，分別適用于不同的防御場景。第一種方法用于從頭訓練出一個安全模型(in-training defense)，涉及一個兩階段的安全訓練模塊。第二種方法用于移除后門模型中的后門(post-training defense)，包含一個交替遺忘毒性樣本和重新學習干凈樣本的后門移除模塊。在3個基準數(shù)據(jù)集和8種后門攻擊上的實驗結(jié)果表明了我們方法相較于SOTA防御方法的優(yōu)越性能。

論文標題: Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples

收錄會議: NeurIPS 2022 (Spotlight)

論文鏈接: https://openreview.net/pdf?id=AsH-Tx2U0Ug

代碼鏈接: https://github.com/SCLBD/Effective_backdoor_defense

1 問題背景

訓練深度神經(jīng)網(wǎng)絡(DNNs)往往需要大量的訓練數(shù)據(jù)，這些數(shù)據(jù)有時可能由不可信的第三方來源所提供。這些不可信的數(shù)據(jù)可能會對模型的訓練帶來嚴重的安全威脅。典型的威脅之一就是基于投毒的后門攻擊，它可以通過投毒一小部分訓練樣本（即：給這部分樣本的圖像加上指定的觸發(fā)器，并把它們的標簽改為某個目標類別），來向模型中注入后門(即：在訓練過程中，模型能夠?qū)W到觸發(fā)器和目標類別之間的映射)。一般地，一個后門模型可以很好地預測干凈樣本，并且能將任何帶有觸發(fā)器的毒性樣本預測為目標類別。為了解決上述威脅，本文提出2個有效的后門防御方法，即使使用不可信來源的數(shù)據(jù)訓練，我們?nèi)阅艿玫桨踩?、干凈的模型?/p>

2 方法介紹

方法的總體框架如圖所示：

2.1 樣本區(qū)分模塊

我們觀察到，在后門模型的特征空間中，帶有觸發(fā)器的毒性樣本總是會匯聚到一起，如下圖的紅色實心點所示。這表示，即使毒性樣本包含著不同的物體，這些物體所代表的信息都被后門模型所忽略了。換句話說，毒性樣本的特征表示由觸發(fā)器所主導，而不是物體。因此，我們猜測：這樣的主導作用來源于后門模型對觸發(fā)器的過擬合，這是因為在不同的毒性樣本中，觸發(fā)器比物體具備更少多樣性。

為了驗證這一猜測，我們嘗試對干凈和毒性樣本分別進行相同的數(shù)據(jù)變換，如旋轉(zhuǎn)。我們觀察到，毒性樣本的特征表示不再匯聚到一起，而是移動到各自的ground-truth類別中，如下圖的紅+所示。這表示，觸發(fā)器的主導作用消失了，我們也證實了上述的猜測。此外，我們發(fā)現(xiàn)，雖然干凈樣本的特征表示也受到數(shù)據(jù)變換的影響，但是相較于毒性樣本，這些影響小得多。這些觀察給了我們啟發(fā)：我們可以利用特征表示對數(shù)據(jù)變換的敏感性來區(qū)分干凈和毒性樣本。

接下來，我們設計了一個度量——針對圖像變換的特征一致性(FCT)，來描述這種敏感性。

如下圖所示，我們發(fā)現(xiàn)，依據(jù)這個度量，干凈與毒性樣本的分布具有顯著差異。其中，左圖/右圖對應被BadNets attack/Blend attack攻擊后的數(shù)據(jù)集。

因此，基于FCT，我們可以建立一個樣本區(qū)分模塊(Sample-distinguishment module)?；疽?guī)則是選取FCT最大的一部分作為毒性樣本，F(xiàn)CT最小的一部分作為干凈樣本。

2.2 安全訓練模塊

結(jié)合樣本區(qū)分模塊，我們設計了一個兩階段的安全訓練模塊two-stage secure training (ST) module，這2個模塊共同組成防御方法D-ST，它適用于in-training defense的防御場景，即：給定一個毒性數(shù)據(jù)集，此方法可以從頭訓練出一個安全的（準確率高且不包含后門）的模型，且在整個訓練過程中模型都不會被注入后門。

2.2.1 階段一：用半監(jiān)督對比學習(SS-CTL)來學習特征提取器

現(xiàn)有防御方法DBD使用對比學習(CTL)來學習特征提取器，在這一過程中，干凈樣本的標簽所包含的有價值信息會流失。另一方面，研究表明，相較于CTL，有監(jiān)督對比學習(S-CTL)可以學到表現(xiàn)更好的特征提取器。因此，考慮到樣本區(qū)分模塊可以鑒別干凈樣本，我們提出半監(jiān)督對比學習(SS-CTL)來學習一個不包含后門的安全的特征提取器。SS-CTL的損失函數(shù)如下：

對于每個毒性樣本和不確定樣本，SS-CTL將促使它的2個數(shù)據(jù)增強版本靠近；對于每個干凈樣本，SS-CTL將促使所有同類干凈樣本的數(shù)據(jù)增強版本靠近。

2.2.1 階段二：用混合交叉熵損失來學習分類器

給定訓練好的安全特征提取器，我們設計了一個混合交叉熵函數(shù)來學習分類器，表示如下：

它能夠從干凈樣本學習到正確映射的同時，防止后門注入分類器。

2.3 后門移除模塊

結(jié)合樣本區(qū)分模塊，我們設計了一個后門移除模塊backdoor removal (BR) module，這2個模塊共同組成防御方法D-BR，它適用于post-training defense的防御場景，即給定一個毒性數(shù)據(jù)集，我們先使用標準監(jiān)督訓練得到一個準確率高且包含后門的模型，再利用此方法移除模型中的后門，從而得到一個安全的（準確率高且不包含后門）模型。特別地，后門移除模塊本質(zhì)上是一個交替學習算法，包含了2個交替的步驟，分別是遺忘與重新學習。

2.3.1 遺忘

這一步旨在通過遺忘從毒性樣本中學到的知識來移除后門，損失函數(shù)如下：

2.3.3 重新學習

這一步旨在通過從干凈樣本中重新學習知識來維持模型的識別準確率，損失函數(shù)如下：

3 實驗結(jié)果

3.1 D-ST的有效性

我們選取適用于安全訓練防御范式的方法DBD來作為baseline。此外，我們設計2個baseline方法。Baseline1和baseline2分別用CTL和S-CTL來訓練特征提取器，且都用標準交叉熵來訓練分類器。表1表示我們的方法D-ST不僅能夠得到較高的ACC，還能將平均ASR抑制為1.21%（在CIFAR-10數(shù)據(jù)集上，在CIFAR-100上則是0.05%）。

3.2 D-BR的有效性

我們選取5個適用于后門移除防御范式的SOTA方法來作為baselines。表2表示我們的方法D-BR不僅能夠維持高ACC，還能將平均ASR由97.29%減小至0.31%(在CIFAR-10數(shù)據(jù)集上，在CIFAR-100上則是由99.77%減小至0.07%)。

3.3 其它實驗

除了上述的主體實驗以外，我們做了大量的實驗來說明：（1）單個SD模塊的有效性，（2）單個BR模塊的有效性，（3）單個ST模塊的有效性，（4）在不同數(shù)據(jù)變換類型下方法的表現(xiàn)，（5）在不同干凈/毒性樣本選擇比例下方法的表現(xiàn)，（6）在不同投毒比例下方法的表現(xiàn)，（7）在不同模型結(jié)構(gòu)及特征維度下方法的表現(xiàn)。更多的結(jié)果與分析請見原論文。

4 總結(jié)

在本文中，我們揭示了毒性樣本對數(shù)據(jù)變換的敏感性，并提出了一個敏感性度量(FCT)。此外，我們提出了樣本區(qū)分模塊(SD module)，安全訓練模塊(ST module)和后門移除模塊(BR module)3個模塊，它們構(gòu)成了2種適用于不同防御范式的后門防御方法(D-ST, D-BR)。大量的實驗分別證明了每個模塊與整體方法的有效性。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴