亚洲一区激情小说,婷婷五月超碰三级小说在线,久久九九Av欧美97色色

來源：PaperWeekly

TL;DR：本研究提出了一種可跨不同領(lǐng)域、適用于特征維度各異且特征空間異構(gòu)的數(shù)據(jù)集的異常檢測(cè)通用模型。

論文標(biāo)題：

UniOD: A Universal Model for Outlier Detection ac ross Diverse Domains

論文作者：

付達(dá)智，樊繼聰

收錄會(huì)議：

ICLR 2026

論文鏈接：

https://arxiv.org/abs/2507.06624

Highlights：

提出一種新穎的異常點(diǎn)檢測(cè)方法 UniOD：可利用歷史數(shù)據(jù)集中的知識(shí)，在面對(duì)全新、未見過的數(shù)據(jù)集時(shí)無需訓(xùn)練即可直接識(shí)別異常點(diǎn)。

相較于其他深度學(xué)習(xí)異常檢測(cè)方法，UniOD 僅需單一模型覆蓋多數(shù)據(jù)集場(chǎng)景；同時(shí)由于跳過重新訓(xùn)練，檢測(cè)階段計(jì)算開銷更低。

我們?yōu)?UniOD 的有效性提供了理論保證，并通過數(shù)值實(shí)驗(yàn)驗(yàn)證與理論結(jié)論相吻合。

在來自 ADbench 的 57 個(gè)來自多個(gè)不同領(lǐng)域的數(shù)據(jù)集上對(duì)比 17 種基線方法，UniOD 在多數(shù)場(chǎng)景下取得更優(yōu)性能。

引言

異常點(diǎn)（Outliers）是指在數(shù)據(jù)集中顯著偏離其他正常數(shù)據(jù)分布的觀測(cè)樣本，通常表明其可能來源于不同的生成機(jī)制。

在日益數(shù)據(jù)驅(qū)動(dòng)的時(shí)代背景下，識(shí)別異常模式或偏離正常行為的現(xiàn)象——即異常檢測(cè)——已成為多個(gè)領(lǐng)域中的關(guān)鍵問題。

這類異常數(shù)據(jù)往往指示著關(guān)鍵事件的發(fā)生，例如金融欺詐、安全入侵、系統(tǒng)故障，或潛在的新知識(shí)發(fā)現(xiàn)，因此對(duì)其進(jìn)行準(zhǔn)確而及時(shí)的檢測(cè)對(duì)于快速干預(yù)與科學(xué)決策具有至關(guān)重要的意義。

離群點(diǎn)檢測(cè)或異常檢測(cè)旨在發(fā)現(xiàn)完全無標(biāo)簽數(shù)據(jù)集中的異常數(shù)據(jù)，在各個(gè)領(lǐng)域中有廣泛的應(yīng)用。

如圖 1 所示，以往的異常檢測(cè)方法往往需要針對(duì)不同的數(shù)據(jù)集訓(xùn)練不同的模型。這意味著當(dāng)面對(duì)一個(gè)新的數(shù)據(jù)集——尤其是來自不同領(lǐng)域的數(shù)據(jù)集時(shí)——我們通常需要從零開始訓(xùn)練異常檢測(cè)模型，由此帶來以下局限性：

高成本的模型選擇與超參數(shù)調(diào)優(yōu)：尤其對(duì)于基于深度學(xué)習(xí)的異常檢測(cè)方法，需要確定網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度、學(xué)習(xí)率以及方法特定的超參數(shù)。

如圖 2 所示，不同數(shù)據(jù)集對(duì)應(yīng)的最優(yōu)超參數(shù)組合差異顯著，從而帶來較大的調(diào)參與模型選擇難度。

評(píng)估前計(jì)算開銷大、等待時(shí)間長(zhǎng)：訓(xùn)練或擬合過程往往耗時(shí)，尤其是在模型規(guī)模和數(shù)據(jù)規(guī)模較大時(shí)更為明顯，導(dǎo)致部署前需要付出較高的計(jì)算成本并產(chǎn)生較長(zhǎng)的等待周期。

未能有效利用歷史數(shù)據(jù)集中的知識(shí)：歷史數(shù)據(jù)集通常蘊(yùn)含關(guān)于正常樣本與異常樣本模式的有用且可遷移知識(shí)，但傳統(tǒng)異常檢測(cè)方法難以將這些知識(shí)有效復(fù)用與遷移。

方法

為了解決上述問題，我們提出了一個(gè)通用異常檢測(cè)模型 - UniOD，該方法的核心思想是：該方法能夠利用來自不同領(lǐng)域的、帶標(biāo)簽的歷史數(shù)據(jù)集（在大數(shù)據(jù)時(shí)代通常易于獲?。┯?xùn)練一個(gè)通用模型，從而在面對(duì)任意未見過領(lǐng)域的數(shù)據(jù)集時(shí)，無需進(jìn)行任何重新訓(xùn)練即可檢測(cè)其中的異常點(diǎn)。

該方法的框架如下圖 3 所示。

2.1 Data Unification-構(gòu)建通用的數(shù)據(jù)

考慮到數(shù)據(jù)集尤其是表格數(shù)據(jù)集往往在維度、特征語(yǔ)義以及樣本規(guī)模等方面存在較大差異，如何統(tǒng)一特征空間是訓(xùn)練通用模型的關(guān)鍵步驟。

我們首先進(jìn)行預(yù)處理，以統(tǒng)一其特征空間——標(biāo)準(zhǔn)化特征維度數(shù)量，并對(duì)每個(gè)特征的語(yǔ)義含義進(jìn)行對(duì)齊與規(guī)范化。

我們的做法分為兩步：

將數(shù)據(jù)集表示為樣本級(jí)的相似度矩陣（即圖結(jié)構(gòu)）。

對(duì)于數(shù)據(jù)集中的任意兩點(diǎn)，我們使用多個(gè)不同帶寬的高斯核函數(shù)計(jì)算其相似度。

基于相似度矩陣構(gòu)建統(tǒng)一特征。

我們對(duì)相似度矩陣使用奇異值分解得到每一個(gè)數(shù)據(jù)的特征。這樣得到的特征都是對(duì)相似度矩陣結(jié)構(gòu)的描述，因此不同數(shù)據(jù)集之間是可比的。

2.2 基于圖神經(jīng)網(wǎng)絡(luò)的模型設(shè)計(jì)

現(xiàn)在我們得到了數(shù)據(jù)的統(tǒng)一特征，需要解決的問題是：如何設(shè)計(jì)模型進(jìn)行訓(xùn)練？

一個(gè)直接的想法是用 MLP 在歷史數(shù)據(jù)集上訓(xùn)練一個(gè)分類器，然而該方法不能充分利用相似度矩陣中所包含的有價(jià)值信息。

為了充分利用樣本間的相似度信息，我們把每一個(gè)數(shù)據(jù)集當(dāng)作圖結(jié)構(gòu)的數(shù)據(jù)，這樣樣本級(jí)的異常檢測(cè)任務(wù)可以被轉(zhuǎn)化為圖節(jié)點(diǎn)級(jí)的異常檢測(cè)任務(wù)，同時(shí)可以使用 GIN（圖同構(gòu)網(wǎng)絡(luò)）和 transformer 并行的結(jié)構(gòu)作為我們的分類器。

2.3 理論分析

我們提出了如定理 4.1 所示的關(guān)于期望泛化誤差和平均訓(xùn)練誤差理論分析，該定理具有以下重要意義：

當(dāng)訓(xùn)練數(shù)據(jù)集數(shù)量更多（即更大）時(shí)，理論上界會(huì)更緊，從而使得泛化誤差更小。

增大 GIN 與 transformer 的數(shù)量可以降低訓(xùn)練誤差，從而提高測(cè)試準(zhǔn)確率

當(dāng) GIN 和 transformer 的層數(shù)過大時(shí)，UniOD 的泛化能力會(huì)減弱。

實(shí)驗(yàn)

3.1 主要實(shí)驗(yàn)結(jié)果

本文在常用的異常檢測(cè)基準(zhǔn) ADBench 的 30 個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試，在歷史數(shù)據(jù)集的劃分上，我們隨機(jī)將這 30 個(gè)數(shù)據(jù)集劃分為兩組，其中一組作為歷史數(shù)據(jù)集，一組作為評(píng)估數(shù)據(jù)集，并做了交叉驗(yàn)證。

評(píng)測(cè)指標(biāo)采用了 AUROC 和 AUPRC，對(duì)所有基線方法均基于歷史數(shù)據(jù)集進(jìn)行了超參數(shù)搜索。

Table2 和 Table3 所示的實(shí)驗(yàn)結(jié)果表明：UniOD 比起其他基線方法在大多數(shù)數(shù)據(jù)集以及平均性能上有較大優(yōu)勢(shì)。

同時(shí)，我們也在 ADBench 的另外 27 個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試，這 27 個(gè)數(shù)據(jù)集中包含圖像數(shù)據(jù)集與文本數(shù)據(jù)集（使用 ViT 和 BERT 提取特征），

Table19 中的實(shí)驗(yàn)結(jié)果表明 UniOD 可以泛化到其他模態(tài)的數(shù)據(jù)集上，盡管只使用表格數(shù)據(jù)集訓(xùn)練。

3.2 領(lǐng)域魯棒性分析

我們?cè)u(píng)估 UniOD 在物理、航天與圖像領(lǐng)域數(shù)據(jù)集上的表現(xiàn)時(shí)，同時(shí)在訓(xùn)練階段系統(tǒng)性移除所有來自相同領(lǐng)域/方向的歷史數(shù)據(jù)集。

在 Table15 中，排除這些領(lǐng)域特定的訓(xùn)練數(shù)據(jù)并未導(dǎo)致對(duì)應(yīng)測(cè)試領(lǐng)域的性能出現(xiàn)顯著下降。

我們將這種魯棒性歸因于兩點(diǎn)關(guān)鍵因素：

即便同屬一個(gè)領(lǐng)域的數(shù)據(jù)集，其特征空間與數(shù)據(jù)特性也可能存在顯著差異；

UniOD 并不直接依賴原始特征，而是利用相似度矩陣來構(gòu)建跨數(shù)據(jù)集、維度一致的特征。因此，不同領(lǐng)域的數(shù)據(jù)集在其相似度矩陣中仍可能呈現(xiàn)相近的結(jié)構(gòu)模式，從而支持有效的跨領(lǐng)域泛化。

3.3 消融實(shí)驗(yàn)

我們?cè)u(píng)估了在使用 1、3、5、10、15 個(gè)歷史訓(xùn)練數(shù)據(jù)集的情況下 UniOD 的性能變化，如圖 4(a) 所示?？梢悦黠@觀察到，隨著歷史數(shù)據(jù)集數(shù)量的增加，模型的泛化性能相應(yīng)提升。

我們進(jìn)一步分析了帶寬數(shù)量對(duì) UniOD 性能的影響。更大的能夠帶來更少的信息損失，從而提升模型的泛化能力，如圖 4(b) 所示。上述實(shí)驗(yàn)結(jié)果與定理的理論分析一致。

結(jié)論

本文提出了一種新穎且高效的異常點(diǎn)檢測(cè)方法 UniOD。其核心思想是利用歷史數(shù)據(jù)集訓(xùn)練一個(gè)通用深度模型，從而在無需重新訓(xùn)練的情況下，對(duì)來自不同領(lǐng)域的全新未見數(shù)據(jù)集進(jìn)行異常檢測(cè)。

通過將每個(gè)數(shù)據(jù)集轉(zhuǎn)換為圖結(jié)構(gòu)數(shù)據(jù)并生成維度統(tǒng)一的節(jié)點(diǎn)特征，UniOD 使得單一模型即可處理異構(gòu)數(shù)據(jù)集成為可能。

我們從理論分析與實(shí)證實(shí)驗(yàn)兩方面系統(tǒng)性地驗(yàn)證了 UniOD 的有效性與高效性。

盡管 UniOD 主要面向傳導(dǎo)式（transductive）異常檢測(cè)場(chǎng)景設(shè)計(jì)，但其同樣可以擴(kuò)展到歸納式（inductive）異常檢測(cè)：即通過將訓(xùn)練集與每個(gè)測(cè)試樣本轉(zhuǎn)換為圖結(jié)構(gòu)數(shù)據(jù)，并計(jì)算其對(duì)應(yīng)的異常分?jǐn)?shù)，從而實(shí)現(xiàn)對(duì)新樣本的異常判別。

從研究的角度出發(fā)，本文提出了異常檢測(cè)的新研究方向——通用異常檢測(cè)模型或異常檢測(cè)基礎(chǔ)模型。從工程與應(yīng)用的角度出發(fā)，UniOD 不需要依賴于專業(yè)能力的調(diào)參或訓(xùn)練步驟，可以即插即用，降低了模型的使用門檻。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3769

瀏覽量
52142
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1237

瀏覽量
26220

原文標(biāo)題：ICLR 2026 | 無需訓(xùn)練跨界泛化，UniOD用單一模型打通全領(lǐng)域異常檢測(cè)

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

一種可跨不同領(lǐng)域的異常檢測(cè)通用模型UniOD介紹

評(píng)論