91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于主觀感興趣區(qū)域的視頻編碼技術(shù)詳細(xì)解析

LiveVideoStack ? 來源:LiveVideoStack ? 作者:譚嵩 ? 2020-08-10 16:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文由芒果TV音視頻技術(shù)專家譚嵩在LiveVideoStackCon2020線上峰會(huì)的演講內(nèi)容整理而成,結(jié)合芒果TV的工程化研發(fā)實(shí)踐經(jīng)驗(yàn),對(duì)基于主觀感興趣區(qū)域的視頻編碼技術(shù)進(jìn)行了詳細(xì)解析。

大家好,本次分享我將結(jié)合芒果TV音視頻技術(shù)研發(fā)團(tuán)隊(duì)的實(shí)踐,對(duì)主觀感興趣區(qū)域的視頻編碼技術(shù)進(jìn)行詳細(xì)解析。內(nèi)容包括以上四個(gè)部分,其中會(huì)重點(diǎn)介紹我們?cè)谥饔^感興趣區(qū)域編碼工程化中遇到的一些問題與思考。 1 5G背景下,視頻運(yùn)營平臺(tái)的新挑戰(zhàn)

隨著5G時(shí)代的到來,用戶對(duì)于視頻畫質(zhì)體驗(yàn)的要求越來越高,如4K、8K、高幀率、HDR等。廣電總局對(duì)電視播出的4K超高清視頻規(guī)范的要求是視頻碼率大于100兆?;ヂ?lián)網(wǎng)視頻應(yīng)用對(duì)此還沒有規(guī)范性的標(biāo)準(zhǔn),但為了達(dá)到合格的播放體驗(yàn)要求,視頻碼率也將呈現(xiàn)出成倍增長的趨勢,這就導(dǎo)致視頻運(yùn)營平臺(tái)短期內(nèi)在CDN成本、用戶播放卡頓兩方面會(huì)面臨更加嚴(yán)峻的挑戰(zhàn)。

面對(duì)上述挑戰(zhàn),我們最容易想到的方法就是通過壓縮效率更高的下一代視頻編碼標(biāo)準(zhǔn),如AV1、VVC等,有效降低成本。但就目前情況來看,這些標(biāo)準(zhǔn)其實(shí)還不具備大規(guī)模商用的生態(tài)環(huán)境,真正能夠支持硬件解碼的設(shè)備其實(shí)非常的少。另一方面,內(nèi)容感知編碼以及拐點(diǎn)參數(shù)在國內(nèi)外各大視頻平臺(tái)已經(jīng)得到普遍的應(yīng)用。在這種情況下,我們需要的是挖掘更多的工具或手段,極限壓榨編碼的碼率。 2 人眼主觀感興趣關(guān)注的特點(diǎn) 2.1 人眼的視覺過程

人眼的視覺過程大致為視網(wǎng)膜成像,大腦接收信息并做出初步的分析,產(chǎn)生視覺注意力聚集,并且最后對(duì)重點(diǎn)區(qū)域做關(guān)注。例如,人在開車過程中,前方的道路和車輛就是主觀關(guān)注和感興趣區(qū)域,周邊的區(qū)域就是非關(guān)注區(qū)域。

2.2 主觀感興趣區(qū)域數(shù)據(jù)的提取

主觀感興趣區(qū)域數(shù)據(jù)集一般是通過眼動(dòng)儀獲取。眼動(dòng)儀是記錄眼動(dòng)行為的一套設(shè)備,它包括一幅特殊的眼鏡,一個(gè)記錄模塊,一套控制軟件,一套數(shù)據(jù)分析軟件。其中控制軟件是非常重要的一個(gè)組成部分,因?yàn)樗獙?duì)觀看的對(duì)象和眼部行為數(shù)據(jù)做精密的同步,數(shù)據(jù)分析軟件就是后期對(duì)數(shù)據(jù)做清洗分析。

使用眼動(dòng)儀獲取ROI大數(shù)據(jù)要注意這樣幾點(diǎn)問題:首先使用眼動(dòng)儀收集數(shù)據(jù)的成本比較高,且更為重要的是人力的投入,因?yàn)樾枰幸欢ɑ鶖?shù)的參與量,數(shù)據(jù)才具有客觀意義;其次是數(shù)據(jù)的可靠性,一個(gè)經(jīng)驗(yàn)并不豐富的測試人員,很可能在測試過程中會(huì)給自己某些心理暗示,導(dǎo)致記錄的行為并非自然狀態(tài)下的真實(shí)行為,也就是說最后取得的數(shù)據(jù)很可能是無效的;最后,第三點(diǎn)就是數(shù)據(jù)清洗。 3 主觀感興趣視頻編碼的工程應(yīng)用 3.1 設(shè)計(jì)背景

基于感興趣區(qū)域的視頻編碼是利用人眼主觀存在感興趣區(qū)域和非感興趣區(qū)域的特點(diǎn),我們對(duì)主觀感興趣區(qū)域和非感興趣區(qū)域的碼率分配做一定的修正,將更多的碼率分配到主觀感興趣區(qū)域,從而在主觀上提升視頻質(zhì)量。這是感興趣區(qū)域視頻編碼的理論設(shè)計(jì),在工程上官方版本的x264、x265編碼器并沒有這樣的設(shè)計(jì),即對(duì)于一個(gè)x264編碼器或者x265編碼器來說,視頻的每個(gè)畫面中的每個(gè)像素都是同等重要。因此我們需要對(duì)編碼器做一個(gè)工程化的開發(fā),來實(shí)現(xiàn)不同像素的權(quán)重差異化,目標(biāo)是達(dá)到同等碼率提升主觀質(zhì)量或者同等體驗(yàn)降低碼率,降低運(yùn)營成本。 3.2 ROI編碼器實(shí)現(xiàn)架構(gòu)設(shè)計(jì)

我們?cè)诰幋a的兩個(gè)階段做了ROI的處理,分別是視頻的前處理以及視頻編碼的過程。 前處理階段主要是做ROI區(qū)域的增強(qiáng),即圖像層面的增強(qiáng),同時(shí)對(duì)非ROI區(qū)域圖像層面,進(jìn)行降噪、磨皮等處理。做過視頻編碼的朋友應(yīng)該清楚,高頻其實(shí)對(duì)編碼是不太友好的,低頻則對(duì)編碼更加友好。非ROI區(qū)域進(jìn)行降噪、磨皮之后,更多的就變成了相對(duì)友好的低頻區(qū)域。那么在同等的PSNR或者客觀指標(biāo)下,碼率會(huì)有明顯的降低。 視頻編碼階段,我們主要是通過AQ調(diào)整QP值,實(shí)現(xiàn)碼率分配的修正。也就是說對(duì)不同的主觀感興趣區(qū)域和非感興趣區(qū)域做不同的QP調(diào)整, QP越小,質(zhì)量越好,碼率也會(huì)越高;QP越大,宏塊得到的碼率越小,畫質(zhì)越差。通過這樣一個(gè)調(diào)整,實(shí)現(xiàn)ROI的權(quán)重調(diào)整。 3.3 ROI區(qū)域的定義

ROI編碼并不是一個(gè)很新的概念,之前就有中心區(qū)域ROI、人臉ROI、字幕ROI等。 中心區(qū)域ROI是基于經(jīng)驗(yàn)的判斷,在正常視頻的拍攝手法上通常會(huì)將最重要的內(nèi)容放在畫面最中間。人臉ROI其實(shí)也是基于這樣的經(jīng)驗(yàn)判斷,一般來講人物往往是視頻內(nèi)容中的主角。 字幕ROI是非常重要的一個(gè)方面,我們做過一個(gè)主觀的調(diào)研:完全同樣的視頻畫面,分別提供不同清晰度的字幕進(jìn)行主觀盲測。最終結(jié)果是:認(rèn)為“字幕清晰”的視頻是“畫質(zhì)更好”視頻的,占比明顯更高。 基于深度學(xué)習(xí)的ROI區(qū)域識(shí)別是當(dāng)前更有效的手段。 3.4 深度學(xué)習(xí)的ROI的識(shí)別技術(shù)

基于深度學(xué)習(xí)的ROI的識(shí)別在技術(shù)上分為兩類,一個(gè)是基于感興趣區(qū)域的熱度圖檢測,另外一個(gè)是顯著對(duì)象分割。通過實(shí)踐理解,在應(yīng)用場景上我們認(rèn)為這兩者是有一定差異性的。我們認(rèn)為感興趣區(qū)域的熱度圖更適合長視頻劇集類型的節(jié)目,顯著對(duì)象分割則更適合真人自拍小視頻等場景。 3.4.1 顯著對(duì)象分割

顯著對(duì)象分割為什么會(huì)更適合真人直播或者真人自拍小視頻? 真人直播或者真人自拍小視頻通常來說有這兩個(gè)特點(diǎn):第一是前景在畫面中面積的占比一般較大;第二是前景和背景相關(guān)性比較弱,且前景的內(nèi)容重要性具有絕對(duì)的地位。以此可以也必須對(duì)背景做比較多的圖像細(xì)節(jié)丟失和編碼壓縮,來提升前景顯著區(qū)域的畫面質(zhì)量。 3.4.2 感興趣區(qū)域熱度檢測

劇集類長視頻節(jié)目的特點(diǎn)是畫面的整體相關(guān)性更強(qiáng)、畫面存在多點(diǎn)位ROI區(qū)域,因此不能類似于真人小視頻一樣過度的衰減非ROI區(qū)域來補(bǔ)償ROI區(qū)域,需要用較多的非ROI區(qū)域來補(bǔ)償較小的ROI區(qū)域,這樣非ROI區(qū)域的衰減在主觀上也不明顯。感興趣熱度圖符合這個(gè)需求特點(diǎn)。 3.5 第一版ROI編碼工程化實(shí)現(xiàn)過程

這是我們?cè)赗OI編碼工程化過程中實(shí)現(xiàn)的第一個(gè)版本。首先實(shí)現(xiàn)的是對(duì)一個(gè)ROI元素的處理。我們從原圖分析得到ROI的熱度圖,然后對(duì)熱度圖做二值化處理并且膨脹后腐蝕到可控的閾值范圍內(nèi)的ROI面積占比。最后我們做了一個(gè)宏塊級(jí)的數(shù)據(jù)結(jié)構(gòu)化,因?yàn)樽罱K要映射到編碼宏塊上去,這里有一個(gè)閾值參數(shù),是我們要控制好ROI區(qū)域和非ROI區(qū)域的面積占比。面積太小,ROI增強(qiáng)的效果不太明顯,但是面積過大,由于ROI區(qū)域畫質(zhì)提升是以犧牲非ROI區(qū)域的細(xì)節(jié)或質(zhì)量實(shí)現(xiàn)的,這會(huì)導(dǎo)致非ROI區(qū)域的質(zhì)量下降非常明顯、如果進(jìn)一步下降達(dá)到主觀產(chǎn)生厭惡感的閾值,會(huì)吸引注意力到這些糟糕的、突兀的畫面上,ROI編碼的目的就沒有達(dá)到。

在工程化實(shí)現(xiàn)上,我們對(duì)x264、265編碼器做了一個(gè)ROI的編碼實(shí)現(xiàn)。編碼器讀取當(dāng)前幀的ROI分析結(jié)果元數(shù)據(jù),在視頻編碼器中通過AQ實(shí)現(xiàn)對(duì)QP的修正,ROI區(qū)域的QP會(huì)降低,編碼質(zhì)量會(huì)提升,同時(shí)碼率也會(huì)消耗的更多。整幀碼率控制依然由x264和x265原生的碼率控制算法負(fù)責(zé)。 3.6 二值ROI的失敗case

做完第一個(gè)版本之后,我們發(fā)現(xiàn),由于這是一個(gè)二值ROI,ROI區(qū)域和非ROI區(qū)域是0和1的區(qū)別,導(dǎo)致ROI和非ROI區(qū)域的非平滑過渡在銜接處會(huì)有一個(gè)明顯的畫質(zhì)對(duì)比跳變(QP值跳變)。第二個(gè)問題是我們對(duì)非ROI區(qū)域的QP調(diào)整是交回給x264和x265編碼器原生的碼率控制,由于我們對(duì)ROI區(qū)域的QP調(diào)整破壞了原生碼率控制算法的數(shù)學(xué)關(guān)系,所以部分場景出現(xiàn)非ROI區(qū)域的渣感現(xiàn)象。這是兩個(gè)失敗的case。 3.7 灰階ROI迭代版本

因?yàn)樯鲜鰞蓚€(gè)失敗的case,我們進(jìn)一步提出了一個(gè)迭代版本灰階ROI?;译AROI實(shí)現(xiàn)的是ROI和非ROI區(qū)域之間一個(gè)ROI強(qiáng)度的灰度過渡,所以QP會(huì)有一個(gè)平滑的調(diào)整,避免兩個(gè)區(qū)域邊緣質(zhì)量差距過大,形成一個(gè)突兀的畫質(zhì)對(duì)比。 3.7.1 灰階ROI的計(jì)算過程

灰階ROI碼率控制的計(jì)算過程:我們的計(jì)算目標(biāo)是得到一個(gè)QP的修正值QP’,Sij是我們對(duì)應(yīng)宏塊的一個(gè)灰階的ROI值,也就是我們剛才這里ROI的一個(gè)灰度的數(shù)值,范圍是0到255。p%其實(shí)是ROI區(qū)域的面積占比,b%是ROI區(qū)域的碼率的占比,也就是說我們?cè)趐%面積占比的ROI區(qū)域上給予了b%的碼率。目前我們采用的數(shù)值p是20%,b是30%,會(huì)對(duì)20%的面積修正給予30%的碼率。同時(shí)對(duì)非ROI區(qū)域的QP做了反向的主動(dòng)修正。

通過這個(gè)迭代版本實(shí)現(xiàn)了ROI和非ROI區(qū)域畫質(zhì)的平滑過渡,同時(shí)非ROI區(qū)域渣感明顯降低。 3.8 效果評(píng)估

這段視頻是最終送給編碼器指導(dǎo)ROI編碼的ROI灰階圖數(shù)據(jù)的真實(shí)示例。為了更加清晰和直觀,這個(gè)示例中非ROI區(qū)域我們做了一個(gè)灰度視頻顯示,ROI區(qū)域還是原來的彩色顯示。

上圖是ROI編碼和非ROI編碼的實(shí)際效果對(duì)比圖。其中ROI編碼的版本降低10%碼率,在這個(gè)條件下,主觀質(zhì)量依然高于非ROI編碼版本。 4 問題和挑戰(zhàn)

我們?cè)谧詈罄^續(xù)向行業(yè)拋出這個(gè)不算很新的話題 — ROI編碼視頻質(zhì)量的機(jī)器評(píng)價(jià),目前我們主要還是通過人工的方式進(jìn)行一些主觀評(píng)價(jià)。在批量化自動(dòng)生產(chǎn)條件下,如何做好ROI編碼視頻質(zhì)量的機(jī)器評(píng)價(jià),是非常具有挑戰(zhàn)和價(jià)值的一項(xiàng)工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻編碼
    +關(guān)注

    關(guān)注

    2

    文章

    114

    瀏覽量

    21605
  • 5G
    5G
    +關(guān)注

    關(guān)注

    1368

    文章

    49174

    瀏覽量

    618860
  • 音視頻技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    12390

原文標(biāo)題:基于主觀感興趣區(qū)域的視頻編碼實(shí)踐

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    風(fēng)華貼片電阻料號(hào)編碼詳細(xì)解析

    風(fēng)華貼片電阻的料號(hào)編碼通常遵循一套系統(tǒng)化的命名規(guī)則,涵蓋了產(chǎn)品類型、封裝尺寸、溫度系數(shù)、阻值、精度、額定功率及包裝方式等關(guān)鍵參數(shù)。以下是對(duì)風(fēng)華貼片電阻料號(hào)編碼詳細(xì)解析: 一、
    的頭像 發(fā)表于 03-04 16:23 ?114次閱讀
    風(fēng)華貼片電阻料號(hào)<b class='flag-5'>編碼</b>的<b class='flag-5'>詳細(xì)</b><b class='flag-5'>解析</b>

    XMOS推出專為嵌入式語音交互功能開發(fā)提供全新線上選型指南

    該選型指南現(xiàn)已正式上線,感興趣的工程師即刻可用。
    的頭像 發(fā)表于 02-14 21:07 ?6827次閱讀
    XMOS推出專為嵌入式語音交互功能開發(fā)提供全新線上選型指南

    2025年視頻傳輸模塊技術(shù)方案與應(yīng)用指南解析

    展現(xiàn)了強(qiáng)勁的競爭實(shí)力。本文基于權(quán)威數(shù)據(jù)平臺(tái)的分析,詳細(xì)介紹無線視頻傳輸模塊的市場現(xiàn)狀、技術(shù)趨勢、主要品牌、優(yōu)勢產(chǎn)品和應(yīng)用方案,為行業(yè)人士提供全面、客觀的選購參考。 一、無線視頻傳輸模塊
    的頭像 發(fā)表于 12-25 16:40 ?456次閱讀

    11 月的 KiCon Asia 前開發(fā)者希望了解下中國用戶最感興趣的功能、需求

    “ ? 11 月的 KiCon Asia 前開發(fā)者希望了解下中國用戶最感興趣的功能、需求。大家可以把自己的想法填在這個(gè)文檔中(或點(diǎn)擊閱讀原文): https://docs.qq.com/sheet
    的頭像 發(fā)表于 10-24 11:20 ?624次閱讀

    SDI編碼板CM2001S與CM8236KB:重構(gòu)專業(yè)視頻會(huì)議的畫質(zhì)與實(shí)時(shí)性標(biāo)準(zhǔn)

    形成的深度適配組合,以廣播級(jí)信號(hào)處理能力與工業(yè)級(jí)穩(wěn)定表現(xiàn),為高端視頻會(huì)議場景提供了"高清采集-低延遲編碼-可靠傳輸"的全鏈路解決方案,重新定義了專業(yè)會(huì)議的技術(shù)基準(zhǔn)。 核心組件技術(shù)
    的頭像 發(fā)表于 10-22 16:18 ?462次閱讀

    ACU電纜隧道區(qū)域控制單元:技術(shù)解析與應(yīng)用優(yōu)勢

    ACU電纜隧道區(qū)域控制單元通過數(shù)字化手段重構(gòu)了傳統(tǒng)運(yùn)維模式,其技術(shù)核心在于將分散的監(jiān)測節(jié)點(diǎn)整合為智能決策網(wǎng)絡(luò)。隨著物聯(lián)網(wǎng)與邊緣計(jì)算技術(shù)的持續(xù)演進(jìn),該系統(tǒng)將在智慧城市基礎(chǔ)設(shè)施領(lǐng)域發(fā)揮更大價(jià)值,為地下電力生命線提供更可靠的
    的頭像 發(fā)表于 06-19 10:51 ?1362次閱讀
    ACU電纜隧道<b class='flag-5'>區(qū)域</b>控制單元:<b class='flag-5'>技術(shù)</b><b class='flag-5'>解析</b>與應(yīng)用優(yōu)勢

    自行車無線電子變速系統(tǒng)

    感興趣的各位工程朋友可以電話或留言! 15671137831蘇先生
    發(fā)表于 06-10 19:28

    精準(zhǔn)進(jìn)階:增量型位置編碼技術(shù)解析與應(yīng)用突破

    知器官”。本文將深入解析技術(shù)原理、應(yīng)用場景及最新突破,揭示這一傳統(tǒng)技術(shù)如何在新時(shí)代煥發(fā)新生。 技術(shù)內(nèi)核:從脈沖信號(hào)到精密定位 增量型編碼
    的頭像 發(fā)表于 05-19 08:36 ?693次閱讀
    精準(zhǔn)進(jìn)階:增量型位置<b class='flag-5'>編碼</b>器<b class='flag-5'>技術(shù)</b><b class='flag-5'>解析</b>與應(yīng)用突破

    解鎖未來汽車電子技術(shù):軟件定義車輛與區(qū)域架構(gòu)深度解析

    解鎖未來汽車電子技術(shù):軟件定義車輛與區(qū)域架構(gòu)深度解析 ——立即下載白皮書,搶占智能汽車發(fā)展先機(jī) *附件:解鎖未來汽車電子技術(shù):軟件定義車輛與區(qū)域
    的頭像 發(fā)表于 04-27 11:58 ?1435次閱讀

    GM7121-D視頻編碼芯片技術(shù)解析與應(yīng)用指南

    (電子工程師參考版) ? #### 一、器件概述 ? GM7121-D是成都振芯科技股份有限公司推出的一款高性能視頻編碼芯片,專用于數(shù)字視頻信號(hào)到模擬復(fù)合視頻信號(hào)的轉(zhuǎn)換。其核心功能包括
    的頭像 發(fā)表于 04-23 15:27 ?1070次閱讀

    脈沖編碼器的詳細(xì)解析

    脈沖編碼器作為一種關(guān)鍵的位置和速度檢測元件,在現(xiàn)代工業(yè)中發(fā)揮著至關(guān)重要的作用。本文將從脈沖編碼器的定義、工作原理、分類、優(yōu)缺點(diǎn)、應(yīng)用等多個(gè)方面,對(duì)其進(jìn)行全面而詳細(xì)解析。 一、定義與性
    的頭像 發(fā)表于 04-17 16:48 ?2143次閱讀

    入行嵌入式難度大不大?

    技術(shù)的不斷進(jìn)步,嵌入式工程師需要不斷學(xué)習(xí)新的技術(shù),如人工智能、物聯(lián)網(wǎng)等。同時(shí),提升自己的項(xiàng)目經(jīng)驗(yàn)和解決問題的能力,也有助于提高薪資待遇和職業(yè)發(fā)展空間。 (四)感興趣入行 如果你對(duì)嵌入式領(lǐng)域感興
    發(fā)表于 04-17 10:14

    智慧消防物聯(lián)網(wǎng)平臺(tái)

    本人想建立一個(gè)物聯(lián)網(wǎng)智慧消防平臺(tái),想找懂技術(shù)的有合伙意愿的共同投資開發(fā),有感興趣的聯(lián)系我13633612945
    發(fā)表于 04-15 22:18

    2025年星閃技術(shù)應(yīng)用巡回研討會(huì)-深圳站火熱報(bào)名中

    2025年星閃技術(shù)應(yīng)用巡回研討會(huì)-深圳站火熱報(bào)名中,感興趣的可以關(guān)注【國際星閃聯(lián)盟】微信公眾號(hào)了解活動(dòng)信息。
    發(fā)表于 03-25 10:17

    ?VLM(視覺語言模型)?詳細(xì)解析

    詳細(xì)解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?8937次閱讀
    ?VLM(視覺語言模型)?<b class='flag-5'>詳細(xì)</b><b class='flag-5'>解析</b>