自馭勢(shì)科技AI男子天團(tuán)出道以來(lái),大家都在求“不是博士的小伙伴韋濤的心理陰影面積”。
正確答案是,他的內(nèi)心沒(méi)有陰影!他忙著給大家解讀一篇有意思的論文呢!
韋濤,畢業(yè)于北京大學(xué)軟件與微電子學(xué)院,處女座……
他用“樂(lè)觀,踏實(shí),好奇心重”三個(gè)詞來(lái)形容自己。作為馭勢(shì)科技AI天團(tuán)成員,除了顔值,還需要會(huì)寫(xiě)代碼,會(huì)搞算法,會(huì)調(diào)板子,會(huì)調(diào)車(chē)子。如果問(wèn)他,怎么給好基友介紹馭勢(shì)科技?韋濤說(shuō),這里是一個(gè)仰望星空,腳踏實(shí)地的地方。而青春,就意味著努力工作。
對(duì)于那些對(duì)AI感興趣的朋友,韋濤特別推薦《深度學(xué)習(xí)》“大花書(shū)”給大家。
能不能看懂,就看你的IQ了~

該論文主要通過(guò)利用Batchnorm Layer中的Scale參數(shù)來(lái)對(duì)模型中通道重要程度進(jìn)行建模,并引入了L1正則項(xiàng)來(lái)對(duì)該通道權(quán)值進(jìn)行稀疏化訓(xùn)練,使得最終得到的模型可以更有效的實(shí)現(xiàn)通道剪枝,達(dá)到網(wǎng)絡(luò)稀疏化的目標(biāo)。該論文的通道稀疏化的實(shí)現(xiàn)方式非常巧妙。
近些年來(lái),CNN由于其出色的表現(xiàn),漸漸成為了圖像領(lǐng)域中主流的算法框架。
在自動(dòng)駕駛領(lǐng)域中,許多任務(wù)同樣可被抽象為圖像分類(lèi)、圖像分割、目標(biāo)檢測(cè)三個(gè)基礎(chǔ)問(wèn)題,因此,CNN在自動(dòng)駕駛領(lǐng)域中的應(yīng)用也越來(lái)越廣泛。
CNN的表現(xiàn)如此突出主要是因?yàn)镃NN模型有大量的可學(xué)習(xí)參數(shù),使得CNN模型具備很強(qiáng)的學(xué)習(xí)能力和表達(dá)能力,然而,也正因?yàn)檫@些大量的參數(shù)使得在硬件平臺(tái)上部署CNN模型時(shí)有較大困難,尤其是在一些計(jì)算資源非常受限的平臺(tái)上,如移動(dòng)設(shè)備、嵌入式設(shè)備等。
在自動(dòng)駕駛場(chǎng)景中,視覺(jué)系統(tǒng)在整個(gè)車(chē)輛系統(tǒng)中一直扮演著一個(gè)十分重要的角色,在視覺(jué)算法實(shí)際投入應(yīng)用時(shí),不僅需要算法精度達(dá)到極高的指標(biāo),也對(duì)算法的實(shí)時(shí)性提出了較高的要求,與此同時(shí),由于場(chǎng)景的特殊性,在自動(dòng)駕駛場(chǎng)景中算法往往會(huì)被部署在一些計(jì)算能力較弱的嵌入式開(kāi)發(fā)平臺(tái)上,因此,如何讓CNN模型在計(jì)算資源受限的應(yīng)用場(chǎng)景中跑的更快成為了一個(gè)越來(lái)越重要的課題。
目前對(duì)CNN模型進(jìn)行加速的方法很多,例如,從快速網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的角度出發(fā)設(shè)計(jì)設(shè)計(jì)一些小而精的模型(squeezenet、mobilenet、enet等),從網(wǎng)絡(luò)壓縮角度出發(fā)對(duì)訓(xùn)練好的網(wǎng)絡(luò)在保證精度不變或小幅下降的前提下進(jìn)行壓縮剪枝(deep compression、channel-pruning等)等。
摘要
一直以來(lái),由于受限于CNN模型的計(jì)算量,在各種實(shí)際應(yīng)用場(chǎng)景中部署CNN模型一直都是個(gè)問(wèn)題。本文提出了一種新型的網(wǎng)絡(luò)學(xué)習(xí)方法以達(dá)到如下的三個(gè)目標(biāo):(1)減少模型大?。?)減小運(yùn)行時(shí)內(nèi)存 (3)減少計(jì)算量。
為了實(shí)現(xiàn)上述目標(biāo),本文主要通過(guò)強(qiáng)制增加channel-level的參數(shù)并對(duì)該參數(shù)進(jìn)行稀疏化訓(xùn)練來(lái)實(shí)現(xiàn)。與其他的方法不同的是,本文的算法直接應(yīng)用于訓(xùn)練的環(huán)節(jié)中,以增加少量計(jì)算開(kāi)銷(xiāo)的前提下實(shí)現(xiàn)了網(wǎng)絡(luò)的稀疏化訓(xùn)練。
本文將該算法稱(chēng)作network slimming,該算法的輸入是一個(gè)“寬大”的網(wǎng)絡(luò),在訓(xùn)練過(guò)程中,那些不重要的通道會(huì)隨著訓(xùn)練權(quán)值逐漸降低,并通過(guò)后處理算法進(jìn)行通道裁剪,最終得到一個(gè)沒(méi)有精度損失的“瘦小”的網(wǎng)絡(luò)。
本文在主流的CNN網(wǎng)絡(luò)結(jié)構(gòu)上驗(yàn)證了該方法,包括VGGNet, ResNet,DenseNet等,并在多個(gè)數(shù)據(jù)集上進(jìn)行了驗(yàn)證。對(duì)于VGGNet, 在經(jīng)過(guò)多次network slimming以后,該模型達(dá)到了20倍的模型尺寸壓縮比以及5倍的模型計(jì)算量壓縮比。
引言
近些年來(lái),CNN在多種視覺(jué)任務(wù)中已經(jīng)變成了一種主流的方法,比如圖像分類(lèi),目標(biāo)檢測(cè)以及圖像分割任務(wù)等。隨著大規(guī)模數(shù)據(jù)集、高端gpu以及新型網(wǎng)絡(luò)結(jié)構(gòu)的出現(xiàn),使得一些大模型的部署成為了可能。比如,imagenet比賽中的冠軍模型從AlexNet、VGGNet以及GoogLeNet再到ResNet,模型規(guī)模逐漸從8層演變成100層以上。
雖然這些大模型具備較強(qiáng)的表達(dá)能力,但是這些模型對(duì)計(jì)算資源的需求也更苛刻。例如像ResNet-152這樣的模型,由于需要大量的計(jì)算量,因此很難被部署在移動(dòng)設(shè)備以及其他的IOT設(shè)備上。
上述提及的部署困難主要受限于如下的三個(gè)因素:
1.模型尺寸。CNN模型的強(qiáng)表達(dá)能力主要來(lái)源于他具有大量可學(xué)習(xí)的參數(shù),而這些參數(shù)將和網(wǎng)絡(luò)的結(jié)構(gòu)信息一起被保存在存儲(chǔ)介質(zhì)上,當(dāng)需要使用模型做inference時(shí),再?gòu)挠脖P(pán)上進(jìn)行讀取。舉例來(lái)說(shuō),存儲(chǔ)一個(gè)典型的在 ImageNet上訓(xùn)練好的模型需要大約300MB的空間,這對(duì)于嵌入式設(shè)備來(lái)說(shuō)是一個(gè)非常大的開(kāi)銷(xiāo)。
2.運(yùn)行時(shí)內(nèi)存的消耗。在inference過(guò)程中,即使batchsize =1,中間層的計(jì)算需要消耗遠(yuǎn)大于模型參數(shù)量的內(nèi)存空間。這對(duì)于一些高端的GPU可能不是什么問(wèn)題,但是對(duì)于一些計(jì)算資源比較緊張的設(shè)備而言,這是一個(gè)比較大的部署問(wèn)題。
3.計(jì)算量的大小。當(dāng)把一款大型CNN模型部署于移動(dòng)設(shè)備上時(shí),由于計(jì)算量大同時(shí)移動(dòng)設(shè)備計(jì)算性能弱,因此可能會(huì)消耗數(shù)分鐘去處理一張圖片,這對(duì)于一款模型被部署于真實(shí)應(yīng)用中是一個(gè)比較大的問(wèn)題。
當(dāng)然,現(xiàn)在有很多工作提出可以通過(guò)壓縮CNN模型來(lái)使得模型具備更快的inference性能,這些方法主要包括低秩分解、模型量化、模型二值化、參數(shù)剪枝等。然而上述所說(shuō)的方法都只能解決之前所提到的三個(gè)主要問(wèn)題中的一個(gè)或兩個(gè),同時(shí),部分方法還需要軟件或硬件的支持才能實(shí)現(xiàn)真正的加速。
另一個(gè)減少CNN計(jì)算資源消耗的方法就是網(wǎng)絡(luò)稀疏化。稀疏化可被應(yīng)用于不同的層級(jí)。本文提出了一種network slimming的網(wǎng)絡(luò)稀疏化方法,該方法解決了在資源有限的場(chǎng)景下上述所提到的問(wèn)題。
本文的方法中,主要通過(guò)對(duì)BatchNorm layer中的scale參數(shù)應(yīng)用了L1正則項(xiàng),從而非常方便的在當(dāng)前的框架下實(shí)現(xiàn)了通道稀疏化。在該方法中,L1正則項(xiàng)將會(huì)使得不重要的通道的BatchNorm Layer中的scale參數(shù)推向0附近,通過(guò)這樣的方法,算法篩選出了不重要的通道,為后續(xù)的通道剪枝帶來(lái)了很多的便利。
與此同時(shí),在該算法中引入的L1正則項(xiàng)并沒(méi)有帶來(lái)精度的損失,相反,在一些案例中,反而得到了更高的精度。在做通道剪枝的過(guò)程中,裁剪掉一些不重要的通道(即低權(quán)值的通道)可能會(huì)帶來(lái)一些精度的損失,但是這些損失的精度可以通過(guò)后續(xù)的fine-tuning操作補(bǔ)償回來(lái)。剪枝得到的壓縮版網(wǎng)絡(luò)在模型尺寸、運(yùn)行時(shí)內(nèi)存占用以及計(jì)算量方面與初始的網(wǎng)絡(luò)相比更具競(jìng)爭(zhēng)力。上述所說(shuō)的過(guò)程可以被重復(fù)數(shù)次,在進(jìn)行多道裁剪工序后將會(huì)得到壓縮比越來(lái)越高的網(wǎng)絡(luò)模型。
根據(jù)本文在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以驗(yàn)證本文的網(wǎng)絡(luò)在經(jīng)過(guò)slimming操作后,實(shí)現(xiàn)了20倍的模型尺寸壓縮以及5倍的模型計(jì)算量壓縮,而在精度方面沒(méi)有損失,甚至反而比原始模型更高。此外,由于本文的算法并沒(méi)有對(duì)網(wǎng)絡(luò)進(jìn)行參數(shù)存儲(chǔ)方式對(duì)修改,因此該方法可適用于在常規(guī)的硬件平臺(tái)以及軟件包上實(shí)現(xiàn)網(wǎng)絡(luò)壓縮以及inference加速。
Network Slimming
本文的目標(biāo)是提供一個(gè)簡(jiǎn)單的策略在CNN上實(shí)現(xiàn)通道稀疏。在本章節(jié)將對(duì)channel-level稀疏的優(yōu)勢(shì)以及難點(diǎn)做一些分析,并且介紹了本文如何通過(guò)BatchNormLayer的scale參數(shù)來(lái)實(shí)現(xiàn)通道稀疏化。
(1)channel-level 稀疏化的優(yōu)勢(shì)
網(wǎng)絡(luò)稀疏化可以被應(yīng)用于不同的層級(jí)中,主要可分為weigh-level、kernel-level、channel-level或者layer-level。weight-level的稀疏化通常具備高度的靈活性以及通用性,并帶來(lái)了較大的壓縮比,但是該方案通常需要特殊的軟硬件加速的支持才能實(shí)現(xiàn)最終的加速。
與此相反,layer-level的方案不需要特殊軟硬件加速的支持即可實(shí)現(xiàn)最終的加速,但是這種方案相比weight-level不夠靈活,部分層需要被整個(gè)裁剪掉,同時(shí),該方案只會(huì)在網(wǎng)絡(luò)層數(shù)特別深的前提下才會(huì)顯得比較有效。因此,根據(jù)上述的對(duì)比,channel-level的稀疏化在靈活性以及實(shí)現(xiàn)難度方面達(dá)到了一個(gè)較好的平衡,該方案可被用于各種典型的CNN模型中,為每一個(gè)原始模型生成一個(gè)“瘦身”版的網(wǎng)絡(luò)模型,該模型可以在各個(gè)常規(guī)的CNN平臺(tái)上高效的運(yùn)行。
(2)channel-level稀疏化的挑戰(zhàn)
要實(shí)現(xiàn)channel-level的稀疏化需要裁剪掉所有與被裁剪通道相關(guān)的輸入通道以及輸出通道。直接用算法根據(jù)通道權(quán)值去裁剪一個(gè)預(yù)訓(xùn)練模型的通道會(huì)比較低效,因?yàn)椴皇撬械耐ǖ罊?quán)值都會(huì)分布在0附近。如論文[23]所闡述的,直接在預(yù)訓(xùn)練好的ResNet中裁剪時(shí),在精度不損失的前提下,只能裁剪掉~10%的通道。論文[35]通過(guò)引入了強(qiáng)制的稀疏正則項(xiàng)來(lái)實(shí)現(xiàn)通道權(quán)值的稀疏化,令通道的權(quán)值分布在0附近。本文提出了一種新方法來(lái)解決上述問(wèn)題。
本文的方法就是為每一個(gè)通道引入一個(gè)scale 因子,該因子將對(duì)該通道的輸出做乘積運(yùn)算,從而實(shí)現(xiàn)對(duì)通道重要程度的建模,本文對(duì)模型參數(shù)以及scale因子進(jìn)行聯(lián)合訓(xùn)練,最后把那些scale因子小的通道裁剪掉并fine-tune整個(gè)網(wǎng)絡(luò)。在引入了正則項(xiàng)以后,優(yōu)化的目標(biāo)函數(shù)如下式所示:

上式中,(x,y)表示訓(xùn)練的輸入項(xiàng)與目標(biāo)項(xiàng),W表示可訓(xùn)練的參數(shù),第一項(xiàng)表示CNN常規(guī)的訓(xùn)練損失, g(.)是一個(gè)引入在scale因子γ上的懲罰項(xiàng),入表示第一項(xiàng)與第二項(xiàng)之間的權(quán)重比。在本文在實(shí)現(xiàn)中采用了g(s)=|s|,即L1正則項(xiàng),被廣泛應(yīng)用于實(shí)現(xiàn)網(wǎng)絡(luò)稀疏化,同時(shí)采用了subgradient descent的優(yōu)化方法來(lái)優(yōu)化L1正則項(xiàng)。

如上圖Figure 1所示,當(dāng)需要裁剪一個(gè)通道時(shí)僅需要移除該通道的輸入與輸出的連接即可得到一個(gè)壓縮后的模型而不需要做其他的一些特殊操作。同時(shí),由于在訓(xùn)練過(guò)程中,scale因子實(shí)現(xiàn)了對(duì)通道的重要程度的建模,因此,當(dāng)后續(xù)做剪枝時(shí),僅需要直接移除那些不重要的通道即可而不會(huì)影響模型整體的泛化能力。
(1)利用BatchNorm Layer進(jìn)行channel-wise的稀疏化
BatchNorm 層已經(jīng)被廣泛的應(yīng)用于各種CNN結(jié)構(gòu)中,作為一種標(biāo)準(zhǔn)的方法來(lái)實(shí)現(xiàn)快速收斂以及增強(qiáng)泛化能力。BatchNorm Layer的設(shè)計(jì)思路啟發(fā)了作者去設(shè)計(jì)一種簡(jiǎn)單有效的方法來(lái)實(shí)現(xiàn)channel-wise稀疏化。BatchNorm Layer的計(jì)算定義如下:

其中zin與zout分別代表Batchnorm Layer 的輸入和輸出,與分別表示當(dāng)前mini-batch下面的均值與方差,而與是可學(xué)習(xí)的參數(shù),可以將規(guī)范化后的分布返回到任何一種原始尺度下。
將BN層放置在Convolution層的后面是一種非常通用的方法。因此,可以直接利用BN層中的γ參數(shù)來(lái)建模通道的重要性,通過(guò)這樣的設(shè)計(jì),不需要引入額外的實(shí)現(xiàn)就能達(dá)到算法的設(shè)計(jì)目標(biāo),事實(shí)上,這是可以用來(lái)實(shí)現(xiàn)channel-wise稀疏化的最有效也是最快捷的方法。接下來(lái)討論一下ScaleLayer的放置問(wèn)題。
1.假如只是在Convolution后面增加了scale層而沒(méi)有使用Batchnorm Layer,Scale層學(xué)到的參數(shù)對(duì)于評(píng)估通道的重要性沒(méi)有意義,因?yàn)椋珻onvolutionlayer和Scale layer都是線性變換,可以通過(guò)減少Scale因子的值同時(shí)放大Convolution Layer的參數(shù)值來(lái)達(dá)到同樣的目標(biāo)。
2.假如將Scale Layer放置在BatchnormLayer前,Scale Layer的效果會(huì)被BatchnormLayer 的規(guī)范化效果完全抵消掉。
3.將ScaleLayer 插入在Batchnorm Layer 之后時(shí),就可以為每一個(gè)通道提供兩個(gè)scale參數(shù)進(jìn)行通道建模了。
(2)通道剪枝以及Finetune
在引入L1正則項(xiàng)進(jìn)行網(wǎng)絡(luò)稀疏化訓(xùn)練以后就可以得到一個(gè)多數(shù)通道權(quán)值在0附近的模型。之后對(duì)網(wǎng)絡(luò)這些權(quán)值在0附近的通道進(jìn)行裁剪,將這些通道對(duì)應(yīng)的輸入輸出的連接移除。在裁剪過(guò)程中,本文采用了一個(gè)全局裁剪閾值,比如,當(dāng)需要裁剪70%的通道時(shí),本文會(huì)選取一個(gè)裁剪百分位為70%的閾值。通過(guò)這樣的操作即可得到裁剪后的模型。
經(jīng)過(guò)上述的裁剪操作后,如果采用的裁剪比例較高可能會(huì)帶來(lái)部分精度的損失,但是這部分損失可以通過(guò)后續(xù)的Finetune操作補(bǔ)償回來(lái)。在作者的實(shí)踐過(guò)程中發(fā)現(xiàn),在進(jìn)行Finetune操作后,裁剪后的模型往往會(huì)比原始的未裁剪的網(wǎng)絡(luò)精度高。
(3)多次循環(huán)剪枝
本文的方法可以從單步操作推廣到多步操作。操作流程如下圖所示:

根據(jù)本文的實(shí)踐經(jīng)驗(yàn)發(fā)現(xiàn)multi-pass得到的結(jié)果往往會(huì)得到更高的壓縮比。
(4)對(duì)Cross Layer Connections 以及 Pre-activation 結(jié)構(gòu)剪枝.
network slimming的方法可以被直接應(yīng)用于VGGNet、AlexNet這樣的網(wǎng)絡(luò)結(jié)構(gòu),但是當(dāng)需要把該方法應(yīng)用于ResNet、DenseNet這樣的網(wǎng)絡(luò)結(jié)構(gòu)時(shí)需要做其他的一些特殊設(shè)計(jì)。對(duì)于這樣的網(wǎng)絡(luò),前一個(gè)網(wǎng)絡(luò)的輸出往往會(huì)被作為后面多個(gè)網(wǎng)絡(luò)模塊的輸入,這些網(wǎng)絡(luò)中 BN層的放置將被放置在Convolution層前。在這樣的網(wǎng)絡(luò)結(jié)構(gòu)中,為了在inference時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)以及網(wǎng)絡(luò)計(jì)算量的壓縮,需要在不重要的通道前放置一個(gè)channel-selection-layer來(lái)屏蔽不需要的channel。
結(jié)果分析
在Cifar10、Cifar100、SVHN上,本文采用了三種模型結(jié)構(gòu)進(jìn)行了測(cè)試分析。分別為VGGNet、ResNet164、DenseNet-40。在ImageNet數(shù)據(jù)集上,本文采用了VGGNet-A網(wǎng)絡(luò)進(jìn)行了測(cè)試分析。下圖table 1為在Cifar數(shù)據(jù)集以及SVHN數(shù)據(jù)集上進(jìn)行驗(yàn)證的一些結(jié)果。

如上表table1所示,分別在Cifar10、Cifar100以及SVHN三個(gè)數(shù)據(jù)集進(jìn)行了訓(xùn)練測(cè)試,可以看到在這三個(gè)數(shù)據(jù)集中,每一個(gè)模型在進(jìn)行了60%以上的channel-pruning以后,均能保持與原始模型幾乎一致的結(jié)果,甚至部分模型裁剪后的結(jié)果還有提升。
如下圖table2所示為VGGNet-A網(wǎng)絡(luò)在ImageNet上訓(xùn)練測(cè)試的一個(gè)結(jié)果表。當(dāng)采用了50%的通道裁剪以后,參數(shù)裁剪比例超過(guò)了5倍,但是Flops裁剪比例僅為30.4%,這是因?yàn)樵诰矸e層中只有378個(gè)通道被裁剪掉了,而在全連接層中,有5094個(gè)通道被裁剪掉。

如下表table4, 展示了在VGGNet在Cifar10以及Cifar100上進(jìn)行multi-pass裁剪的一個(gè)對(duì)比結(jié)果。如在Cifar10數(shù)據(jù)集上,隨著迭代次數(shù)的提升,裁剪比例越來(lái)越高,在iter 5的時(shí)候,得到了最低的test error。此時(shí)該模型達(dá)到了20x的參數(shù)減少和5x的計(jì)算量減少。而在Cifar100上,在iter3上,test error開(kāi)始增加。這可能是因?yàn)樵赾ifar100上,類(lèi)別數(shù)目大于Cifar10,所以裁剪的太厲害會(huì)影響最終的結(jié)果,但是仍然實(shí)現(xiàn)了接近90%的參數(shù)減少以及接近70%的計(jì)算量下降。

如下圖Figure 4為本文采用VGGNet在Cifar100上作稀疏化訓(xùn)練一些對(duì)比實(shí)驗(yàn),可以發(fā)現(xiàn)隨著入的增大,模型通道權(quán)重的結(jié)果會(huì)越來(lái)越稀疏。

我們的一些實(shí)踐
由于公布的代碼是在torch框架下的代碼,因此,我們根據(jù)在Caffe上對(duì)上述結(jié)果進(jìn)行了一次簡(jiǎn)單的驗(yàn)證。在驗(yàn)證過(guò)程中采用了VGGNet-A網(wǎng)絡(luò)作為實(shí)驗(yàn)網(wǎng)絡(luò),并采用的Cifar10作為訓(xùn)練數(shù)據(jù)集。
如下圖所示,左上為入=0,在iteration = 10000時(shí)的入?yún)?shù)分布圖,右上為入=0,iteration=45000的參數(shù)分布圖。左下為入=10e-4,iteration = 45000的參數(shù)統(tǒng)計(jì)圖,右下為入=10-3, iteration = 45000下的參數(shù)統(tǒng)計(jì)圖。[橫軸值除以100為參數(shù)實(shí)際區(qū)間]

根據(jù)上面這一組圖我們發(fā)現(xiàn)如下幾點(diǎn)得到了驗(yàn)證。
(1)隨著訓(xùn)練次數(shù)的增加,入?yún)?shù)在正則項(xiàng)的影響下,逐步左移,重要的通道權(quán)值逐步凸顯,不重要的通道權(quán)值逐步抑制,與論文中Figure6的結(jié)論相符
(2)隨著入?yún)?shù)的增大,L1正則項(xiàng)的影響越來(lái)越大,參數(shù)越來(lái)越向0點(diǎn)靠攏,稀疏比例提高
(3)在增加L1正則項(xiàng)以后,實(shí)現(xiàn)了對(duì)通道的稀疏化但訓(xùn)練的結(jié)果并沒(méi)有下降甚至反而有所提升,考慮在訓(xùn)練過(guò)程中,“噪聲”通道由于L1正則項(xiàng)的引入被抑制,而真正的有效通道被凸顯。
因此,我們認(rèn)為slimming的方法對(duì)于channel-wise的稀疏化是有效的。我們也采用同樣的參數(shù)在ImageNet數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)發(fā)現(xiàn)效果并不如在cifar10數(shù)據(jù)集上那么好,雖然也有參數(shù)稀疏化的效果但是并不如cifar10上那么明顯,同時(shí)參數(shù)稀疏化后大部分主要分布在0.2附近,后續(xù)我們將進(jìn)一步進(jìn)行試驗(yàn)。
總而言之,channel-slimming利用了BatchNorm Layer的特性巧妙的對(duì)通道重要性建模并最后實(shí)現(xiàn)通道的稀疏化還是非常值得學(xué)習(xí)的。
-
嵌入式
+關(guān)注
關(guān)注
5202文章
20520瀏覽量
335428 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7341瀏覽量
94906 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
794文章
14921瀏覽量
180462
發(fā)布評(píng)論請(qǐng)先 登錄
算法工程師需要具備哪些技能?
Neway電機(jī)方案在電機(jī)控制的應(yīng)用場(chǎng)景
請(qǐng)問(wèn)MOSFET在電源管理中有哪些應(yīng)用場(chǎng)景?
Switch的應(yīng)用場(chǎng)景
動(dòng)態(tài)調(diào)整策略的應(yīng)用場(chǎng)景有哪些?
藍(lán)牙網(wǎng)關(guān)是什么?都有哪些功能?應(yīng)用場(chǎng)景有哪些?
一文了解Mojo編程語(yǔ)言
構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議
大模型推理顯存和計(jì)算量估計(jì)方法研究
鯤云科技AI智能分析解決方案全新升級(jí)
六相永磁同步電機(jī)串聯(lián)系統(tǒng)控制的兩種方法分析研究
安卓工控一體機(jī)在智慧農(nóng)業(yè)設(shè)備中的應(yīng)用場(chǎng)景
關(guān)于加快CNN模型在計(jì)算資源受限的應(yīng)用場(chǎng)景的速度的分析研究
評(píng)論