91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于有效樣本的類別不平衡損失

自然語言處理愛好者 ? 來源:AI公園 ? 作者:Sik-Ho Tsang ? 2021-08-16 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

使用每個類的有效樣本數(shù)量來重新為每個類的Loss分配權(quán)重,效果優(yōu)于RetinaNet中的Focal Loss。

本文綜述了康奈爾大學、康奈爾科技、谷歌Brain和Alphabet公司的基于有效樣本數(shù)的類平衡損失(CB損失)。在本文中,設計了一種重新加權(quán)的方案,利用每個類的有效樣本數(shù)來重新平衡損失,稱為類別平衡損失。

1. 類別平衡問題

假設有像上面那樣的不平衡的類。head:對于索引小的類,這些類有較多的樣本。Tail:對于大索引的類,這些類的樣本數(shù)量較少。黑色實線:直接在這些樣本上訓練的模型偏向于優(yōu)勢類。紅色虛線:通過反向類頻率來重新加權(quán)損失可能會在具有高類不平衡的真實數(shù)據(jù)上產(chǎn)生較差的性能。藍虛線:設計了一個類平衡項,通過反向有效樣本數(shù)來重新加權(quán)損失。

2. 有效樣本數(shù)量

2.1. 定義

6f483fc4-fd9a-11eb-9bcf-12bb97331649.png

數(shù)據(jù)間信息重疊,左:特征空間S,中:1個樣本數(shù)據(jù)的單位體積,右:數(shù)據(jù)間信息重疊

直覺上,數(shù)據(jù)越多越好。但是,由于數(shù)據(jù)之間存在信息重疊,隨著樣本數(shù)量的增加,模型從數(shù)據(jù)中提取的邊際效益會減少

左:給定一個類,將該類的特征空間中所有可能數(shù)據(jù)的集合表示為S。假設S的體積為N且N≥1。中:S子集中的每個樣本的單位體積為1,可能與其他樣本重疊。Right:從S中隨機抽取每個子集,覆蓋整個S集合。采樣的數(shù)據(jù)越多,S的覆蓋率就越好。期望的采樣數(shù)據(jù)總量隨著樣本數(shù)量的增加而增加,以N為界。

因此,將有效樣本數(shù)定義為樣本的期望體積。

這個想法是通過使用一個類的更多數(shù)據(jù)點來捕捉邊際效益的遞減。由于現(xiàn)實世界數(shù)據(jù)之間的內(nèi)在相似性,隨著樣本數(shù)量的增加,新添加的樣本極有可能是現(xiàn)有樣本的近重復。另外,cnn是用大量的數(shù)據(jù)增廣來訓練的,所有的增廣實例也被認為與原始實例相同。對于一個類,N可以看作是唯一原型的數(shù)量。

2.2. 數(shù)學公式

En表示樣本的有效數(shù)量(期望體積)。為了簡化問題,不考慮部分重疊的情況。也就是說,一個新采樣的數(shù)據(jù)點只能以兩種方式與之前的采樣數(shù)據(jù)交互:完全在之前的采樣數(shù)據(jù)集中,概率為p,或完全在原來的數(shù)據(jù)集之外,的概率為1- p。

有效數(shù)字:En = (1?β^n)/(1?β),其中,β = (N? 1)/N,這個命題可以用數(shù)學歸納法證明。當E1 = 1時,不存在重疊,E1 =(1?β^1)/(1?β) = 1成立。假設已經(jīng)有n?1個樣本,并且即將對第n個樣本進行采樣,現(xiàn)在先前采樣數(shù)據(jù)的期望體積為En ?1,而新采樣的數(shù)據(jù)點與先前采樣點重疊的概率為 p = E(n?1)/N。因此,第n個實例采樣后的期望體積為:

6f8b26a4-fd9a-11eb-9bcf-12bb97331649.png

此時:

我們有:

6fc6da32-fd9a-11eb-9bcf-12bb97331649.png

上述命題表明有效樣本數(shù)是n的指數(shù)函數(shù)。超參數(shù)β∈[0,1)控制En隨著n的增長有多快。

3. 類別平衡 Loss (CB Loss)

類別平衡(CB)loss可以寫成:

6fe31a80-fd9a-11eb-9bcf-12bb97331649.png

其中,ny是類別y的ground-truth的數(shù)量。β = 0對應沒有重新加權(quán), β → 1對應于用反向頻率進行加權(quán)。

提出的有效樣本數(shù)的新概念使我們能夠使用一個超參數(shù)β來平滑地調(diào)整無重權(quán)和反向類頻率重權(quán)之間的類平衡項。

所提出的類平衡項是模型不可知的和損失不可知的,因為它獨立于損失函數(shù)L和預測類概率p的選擇。

3.1. 類別平衡的 Softmax 交叉熵損失

給定一個標號為y的樣本,該樣本的softmax交叉熵(CE)損失記為:

6ff9c546-fd9a-11eb-9bcf-12bb97331649.png

假設類y有ny個訓練樣本,類平衡(CB)softmax交叉熵損失為:

70271b54-fd9a-11eb-9bcf-12bb97331649.png

3.2. 類別平衡的 Sigmoid 交叉熵損失

當對多類問題使用sigmoid函數(shù)時,網(wǎng)絡的每個輸出都執(zhí)行一個one-vs-all分類,以預測目標類在其他類中的概率。在這種情況下,Sigmoid不假定類之間的互斥性。由于每個類都被認為是獨立的,并且有自己的預測器,所以sigmoid將單標簽分類和多標簽預測統(tǒng)一起來。這是一個很好的屬性,因為現(xiàn)實世界的數(shù)據(jù)通常有多個語義標簽。sigmoid交叉熵(CE)損失可以寫成:

7032cd82-fd9a-11eb-9bcf-12bb97331649.png

類平衡(CB) sigmoid交叉熵損失為:

709d0724-fd9a-11eb-9bcf-12bb97331649.png

3.3. 類別平衡 Focal Loss

Focal loss (FL)是在RetinaNet中提出的,可以減少分類很好的樣本的損失,聚焦于困難的樣本。

類別平衡的 (CB) Focal Loss為:

70d554f8-fd9a-11eb-9bcf-12bb97331649.png

4. 實驗結(jié)果

4.1. 數(shù)據(jù)集

試驗了CIFAR-10和CIFAR-100的5個不平衡系數(shù)分別為10、20、50、100和200的長尾版本。iNaturalist 和ILSVRC是天然的類別不平衡數(shù)據(jù)集。

上面顯示了每個類具有不同不平衡因素的圖像數(shù)量。

4.2. CIFAR 數(shù)據(jù)集

loss類型的超參數(shù)搜索空間為{softmax, sigmoid, focal}, [focal loss]的超參數(shù)搜索空間為β∈{0.9,0.99,0.999,0.9999},γ∈{0.5,1.0,2.0}。在CIFAR-10上,最佳的β一致為0.9999。但在CIFAR-100上,不同不平衡因子的數(shù)據(jù)集往往有不同且較小的最優(yōu)β。

718c16f2-fd9a-11eb-9bcf-12bb97331649.png

有和沒有類平衡項時的分類錯誤率

在CIFAR-10上,根據(jù)β = 0.9999重新加權(quán)后,有效樣本數(shù)與樣本數(shù)接近。這意味著CIFAR-10的最佳重權(quán)策略與逆類頻率重權(quán)類似。在CIFAR-100上,使用較大的β的性能較差,這表明用逆類頻率重新加權(quán)不是一個明智的選擇,需要一個更小的β,具有更平滑的跨類權(quán)重。例如,一個特定鳥類物種的獨特原型數(shù)量應該小于一個一般鳥類類的獨特原型數(shù)量。由于CIFAR-100中的類比CIFAR-10更細粒度,因此CIFAR-100的N比CIFAR-10小。

4.3. 大規(guī)模數(shù)據(jù)集

721263ba-fd9a-11eb-9bcf-12bb97331649.png

在所有數(shù)據(jù)集驗證集上,使用不同損失函數(shù)訓練的大規(guī)模數(shù)據(jù)集上的Top-1和Top-5分類錯誤率

使用了類平衡的Focal Loss,因為它具有更大的靈活性,并且發(fā)現(xiàn)β = 0.999和γ = 0.5在所有數(shù)據(jù)集上都獲得了合理的良好的性能。值得注意的是,使用了類別平衡的Focal Loss來代替Softmax交叉熵,ResNet-50能夠達到和ResNet-152相應的性能。

以上數(shù)字顯示類平衡的Focal Loss損失經(jīng)過60個epochs的訓練后,開始顯示其優(yōu)勢。

英文原文:https://medium.com/nerd-for-tech/review-cb-loss-class-balanced-loss-based-on-effective-number-of-samples-image-classification-3056a1a1a001

作者:Sik-Ho Tsang

編譯:ronghuaiyang(AI公園)

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111450
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26205
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23429

原文標題:CB Loss:基于有效樣本的類別不平衡損失

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    繞線式電機轉(zhuǎn)子三相不平衡的主要原因

    繞線式電機轉(zhuǎn)子三相不平衡是電機運行中常見的故障現(xiàn)象,可能導致振動加劇、溫升異常甚至燒毀繞組。這種現(xiàn)象的成因復雜多樣,需從設計、制造、安裝、運行維護等多方面綜合分析。
    的頭像 發(fā)表于 03-02 17:24 ?522次閱讀

    高精度CT在測量電流不平衡度中具體是如何工作的?

    高精度 CT(電流互感器)在電流不平衡度測量中,是通過 電磁感應實現(xiàn)大電流信號的精準變換 ,并依托自身優(yōu)異的精度、一致性和抗干擾特性,為后續(xù)不平衡度計算提供可靠原始數(shù)據(jù),其具體工作流程可分為 5 個
    的頭像 發(fā)表于 12-05 16:37 ?787次閱讀
    高精度CT在測量電流<b class='flag-5'>不平衡</b>度中具體是如何工作的?

    電能質(zhì)量在線監(jiān)測裝置電流不平衡度能測嗎?

    無論是常規(guī)工業(yè)場景還是電網(wǎng)關(guān)口、風電 / 充電樁等特殊場景,現(xiàn)代電能質(zhì)量在線監(jiān)測裝置(尤其 A 類精度產(chǎn)品)均能精準測量電流不平衡度,且完全符合 GB/T 19862-2016、IEC
    的頭像 發(fā)表于 11-27 15:50 ?1071次閱讀
    電能質(zhì)量在線監(jiān)測裝置電流<b class='flag-5'>不平衡</b>度能測嗎?

    電能質(zhì)量在線監(jiān)測裝置三相不平衡度實時顯嗎?

    一、三相不平衡度顯示能力確認 所有現(xiàn)代電能質(zhì)量在線監(jiān)測裝置 (無論 A/B/C 類精度) 均 標配三相不平衡度實時監(jiān)測功能 ,具體表現(xiàn)為: 顯示形式 :液晶屏幕 (LCD/TFT) 直接顯示數(shù)值
    的頭像 發(fā)表于 11-25 17:48 ?523次閱讀
    電能質(zhì)量在線監(jiān)測裝置三相<b class='flag-5'>不平衡</b>度實時顯嗎?

    電流不平衡度的測量誤差范圍是多少?

    電流不平衡度的測量誤差范圍由國家標準嚴格規(guī)定,具體數(shù)值根據(jù)設備等級、硬件性能、算法設計及應用場景有所差異。以下是核心誤差范圍及影響因素的詳細解析: 一、國標規(guī)定的基礎誤差范圍 根據(jù)《GB/T
    的頭像 發(fā)表于 11-06 09:38 ?898次閱讀

    電流不平衡度測量精度受諧波影響嗎?

    是的,電流不平衡度的測量精度 會顯著受諧波影響 。這是因為電流不平衡度基于 “對稱分量法” 計算(分解正序、負序、零序分量),而諧波會改變?nèi)嚯娏鞯幕ê椭C波分量分布,導致序分量計算偏差,進而
    的頭像 發(fā)表于 11-05 16:08 ?1156次閱讀

    電能質(zhì)量在線監(jiān)測裝置的電流不平衡度測量精度能達到多少?

    電能質(zhì)量在線監(jiān)測裝置的電流不平衡度測量精度 取決于設備等級、硬件性能、算法設計及應用場景 ,其核心指標符合國家標準(GB/T 15543-2019)和國際規(guī)范(IEC 61000-4-30)。以下
    的頭像 發(fā)表于 11-05 15:50 ?497次閱讀

    半導體缺陷檢測升級:機器學習(ML)攻克類別不平衡難題,小數(shù)據(jù)也能精準判,降本又提效!

    一、引言機器學習(ML)在半導體制造領域的應用,正面臨傳統(tǒng)算法難以突破的核心瓶頸。盡管行業(yè)能產(chǎn)生海量生產(chǎn)數(shù)據(jù),但兩大關(guān)鍵問題始終未能有效解決:一是極端類別不平衡,二是初始生產(chǎn)階段訓練數(shù)據(jù)集匱乏
    的頭像 發(fā)表于 11-05 11:38 ?568次閱讀
    半導體缺陷檢測升級:機器學習(ML)攻克<b class='flag-5'>類別</b><b class='flag-5'>不平衡</b>難題,小數(shù)據(jù)也能精準判,降本又提效!

    電能質(zhì)量在線監(jiān)測裝置三相不平衡度能實時算嗎?

    是的,現(xiàn)代電能質(zhì)量在線監(jiān)測裝置能夠?qū)崟r計算三相不平衡度,且精度和響應速度已達到工程實用水平。以下從技術(shù)實現(xiàn)、標準規(guī)范、硬件支撐和實際應用四個維度展開分析: 一、核心算法與動態(tài)響應能力 對稱分量法
    的頭像 發(fā)表于 10-15 16:22 ?483次閱讀

    三相不平衡度的國標是怎樣規(guī)定電能質(zhì)量在線監(jiān)測裝置的監(jiān)測精度的?

    根據(jù)現(xiàn)行國家標準 GB/T 15543-2008《電能質(zhì)量 三相電壓不平衡》 及相關(guān)配套規(guī)范(如 GB/T 19862-2016《電能質(zhì)量監(jiān)測設備通用要求》 ),電能質(zhì)量在線監(jiān)測裝置對三相不平衡
    的頭像 發(fā)表于 10-11 16:31 ?1626次閱讀
    三相<b class='flag-5'>不平衡</b>度的國標是怎樣規(guī)定電能質(zhì)量在線監(jiān)測裝置的監(jiān)測精度的?

    變頻器輸出不平衡及對策

    變頻器輸出不平衡是工業(yè)自動化領域中常見的問題,它可能導致電機運行異常、設備損壞甚至生產(chǎn)事故。本文將深入分析變頻器輸出不平衡的原因,并提出相應的解決方案,幫助工程師和技術(shù)人員有效應對這一挑戰(zhàn)。 一
    的頭像 發(fā)表于 08-23 17:09 ?2211次閱讀
    變頻器輸出<b class='flag-5'>不平衡</b>及對策

    無軸承異步電機的不平衡振動補償控制

    異步電機轉(zhuǎn)子的不平衡振動位移幅度,在穩(wěn)態(tài)下能基本消除不平衡振動激振力對軸心軌跡的影響,從而有效提高轉(zhuǎn)子的懸浮運行控制精度。所給不平衡振動補償控制策略是
    發(fā)表于 07-14 17:37

    輪轂電機不平衡電磁力對車輪定位參數(shù)的影響

    [摘要] 輪轂電機驅(qū)動電動汽車將電機、減速機構(gòu)和制動器等高度集成于車輪內(nèi)。不同路面激勵下的輪胎跳動、載荷不均和軸承磨損等造成電機氣隙沿圓周分布不均,其所產(chǎn)生的不平衡電磁力將會通過減速機構(gòu)或直接傳遞
    發(fā)表于 06-10 13:17

    伺服電機三相不平衡原因及解決方法

    伺服電機作為現(xiàn)代工業(yè)自動化系統(tǒng)中的核心執(zhí)行元件,其穩(wěn)定運行直接關(guān)系到生產(chǎn)效率和設備壽命。然而在實際應用中,三相電流不平衡問題頻發(fā),輕則導致電機發(fā)熱、效率下降,重則引發(fā)設備停機甚至繞組燒毀。本文將
    的頭像 發(fā)表于 05-06 07:40 ?1982次閱讀
    伺服電機三相<b class='flag-5'>不平衡</b>原因及解決方法

    3A325薄型平衡不平衡變壓器Anaren

    3A325薄型平衡不平衡變壓器Anaren 3A325 是一款由 Anaren Microwave 生產(chǎn)的表面貼裝(SMD)巴倫變壓器(Balun Transformer),適用于無線通信和射頻
    發(fā)表于 03-11 09:31