91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ORTC與AI相互成就之道

LiveVideoStack ? 來源:LiveVideoStack ? 2023-06-26 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

-01-

ORTC簡介

c7b837bc-13ba-11ee-962d-dac502259ad0.png

首先簡單介紹一下ORTC:它是OPPO實時音視頻平臺,是OPPO萬物互融戰(zhàn)略下的重要基礎(chǔ)設施,面向終端和業(yè)務提供音視頻實時通信基礎(chǔ)能力。ORTC目前支持視頻會議、視頻通話、云游戲、云渲染等產(chǎn)品。

c8656a04-13ba-11ee-962d-dac502259ad0.png

ORTC架構(gòu)分為兩部分,端側(cè)和服務側(cè)。端側(cè)包括APP層、SDK層、核心庫,以及系統(tǒng)層和硬件層。服務端分為業(yè)務服務器和ORTC服務器:業(yè)務服務器主要管理如認證、監(jiān)控和調(diào)度等;ORTC服務器主要有信令服務器、媒體服務器,以及STUN、TURN、MCU和網(wǎng)關(guān)服務器等。所有這些服務器都是基于OPPO混合云架構(gòu)之上的微服務。

c8b33ed2-13ba-11ee-962d-dac502259ad0.png

接下來通過一個應用場景介紹ORTC交互流程。

如圖是一個點對點視頻通話場景,業(yè)務管理服務器用于資源分配,信令服務器用于鏈路建立以及SDK協(xié)商,媒體轉(zhuǎn)發(fā)服務器用于媒體流收發(fā)。

ORTC作為一個PaaS平臺,不只提供簡單的應用,還可以進一步擴展,它是對開發(fā)者開放的。此外,作為OPPO三大戰(zhàn)略之一的潘塔納爾系統(tǒng)也是借助PRTC來實現(xiàn)原廠互聯(lián)通信能力的。

-02-

AI=>ORTC

c8e660dc-13ba-11ee-962d-dac502259ad0.png

接下來我們看AI能夠從哪些方面給ORTC帶來驚喜的呢?

我們知道,RTC的核心要素包括音頻、視頻和網(wǎng)絡傳輸。接下來我們從這三個方面分析AI師如何促進ORTC能力躍遷的。

c9081cf4-13ba-11ee-962d-dac502259ad0.png

首先是音頻部分。在RTC交互過程中,音頻處理的上行流程包括音頻采集、音頻前處理、壓縮編碼、RTP封包和弱網(wǎng)對抗。在前處理和弱網(wǎng)對抗部分都可適當引入AI。在云端還包括合流轉(zhuǎn)碼和云端增強。在下行部分中,AI也可以發(fā)揮很大的作用。

接下來就從音頻前處理的幾個常用場景介紹下。

c926f246-13ba-11ee-962d-dac502259ad0.png

首先是AI語音降噪。AI降噪基于大量語料練習,應用深度學習技術(shù),實現(xiàn)將人聲和噪音分離,有效抑制環(huán)境中的各種噪音。在這個過程中,我們所做的主要包括模型訓練以及算法執(zhí)行。 在模型的訓練過程中,需要對含噪語音進行前處理、 短時傅里葉變換,經(jīng)過深度學習網(wǎng)絡后,得到增強語音,再將增強語音與干凈語音輸入到損失函數(shù)模塊,得到損失值來指導模型更新,直至收斂。在這個過程中,對于降噪效果的指標衡量,取決于訓練目標和損失函數(shù)。 常用的訓練目標包括掩碼類和映射類。掩碼類描述了干凈語音與噪音之間的時頻關(guān)系,包括基于幅度的理想二值掩碼等;映射類通過訓練神經(jīng)網(wǎng)絡模型直接學習帶噪語音和純凈語音之間的映射關(guān)系,包括頻譜映射和波形映射。 有了訓練目標后,再疊加損失函數(shù),如MSE、SDR、PESQ等,最終使模型得到很好的收斂。

c97a8564-13ba-11ee-962d-dac502259ad0.png

在網(wǎng)絡模型方面,CRN是融合了卷積和循環(huán)神經(jīng)網(wǎng)絡的一種網(wǎng)絡模型。在此基礎(chǔ)上,DCCRN融合了復數(shù)卷積概念,ORTC正是基于此模型進行語音降噪的。 下一步的演進過程需要考慮分場景進行。因為有些降噪算法的引入會增加功耗和復雜度,我們會綜合運用傳統(tǒng)WebRTC降噪、DCCRN降噪以及基于視覺輔助的AI降噪(視覺語音降噪是利用視覺信息,如嘴唇運動,把跟目標聲音相關(guān)的背景人聲過濾掉)。

c9cf9b44-13ba-11ee-962d-dac502259ad0.png

回聲包括線性回聲和非線性回聲。 在進行回聲消除時,首先進行延遲估計(將參考信號和麥克風信號對齊),然后做一個線性自適應濾波器(去除線性回聲),第三步是非線性處理(抑制殘留噪聲)。 AI回聲消除是通過語音分離方式,基于長短記憶模型(LSTM)和卷積神經(jīng)網(wǎng)絡(CNN)進行回聲場景的算法建模,直接消除線性回聲和非線性回聲。 訓練策略包括頻譜映射、波形映射、掩碼和時域。

ca09267a-13ba-11ee-962d-dac502259ad0.png

ORTC視頻端到端處理流程如圖所示。在流程中,AI算法的應用場景還是很豐富的。

ca336200-13ba-11ee-962d-dac502259ad0.png

基于此,OPPO提供了基于“云-端-芯”的三層架構(gòu)和“端云協(xié)同部署,端芯加速計算”的技術(shù)方案,為移動業(yè)務提供安全快速的端側(cè)能力。 AIDeploy是云端AI部署平臺,為端側(cè)AI能力提供線上部署更新和運行監(jiān)控能力,通過異常預警和用戶行為分析持續(xù)演進算法能力,從而增強端側(cè)AI服務,為用戶帶來更好的體驗。 AIUnit是端側(cè)AI能力平臺,基于自主創(chuàng)新的雙驅(qū)引擎架構(gòu),可以自由部署各種算法模型,為App提供輕量API可快速集成AI能力。 AIBoost是AI算法加速框架,結(jié)合ColosOS系統(tǒng)調(diào)度和硬件計算,提供模型加速、異構(gòu)計算、推理轉(zhuǎn)換等能力,支持TensorFlow、Pytorch等算法框架。

ca6a2f24-13ba-11ee-962d-dac502259ad0.png

在實時視頻交互過程中,會遇到視頻過暗、過淡、抖動等需要處理的場景,很多AI算法也已支持解決此類問題。在ORTC視頻增強架構(gòu)中,CameraUnit SDK實現(xiàn)層提供了AI算法的能力接入,在視頻前處理如抖動、美顏、視頻增強等做能力提升。

ca985ea8-13ba-11ee-962d-dac502259ad0.png

在視頻前處理中,美顏主要使用雙曲線磨皮和高低頻磨皮。 雙曲線磨皮通過Y通道求高反差,進行RGB通道提亮和壓暗處理,最后進行圖像融合。此方法在磨皮程度的度量和處理色塊上都有一定的缺陷和局限性。 于是,我們針對高低頻磨皮進行了一些改進。首先對圖像進行濾波,生成中間結(jié)果,利用圖像的方差圖來反映圖像的頻率分布,將圖像劃分為不同頻段的區(qū)域并為其設置不同的權(quán)重,根據(jù)相應的權(quán)重將原圖和濾波后的圖進行融合疊加。 在此過程中我們也遇到了一些問題,例如中高光壓制過多導致圖像通透性差,對應的解決方案是細化分頻區(qū)域,減小對高光的壓制。另外,針對圖像鋸齒和小人臉效果不佳的問題,我們通過降低縮放尺度或不縮放以解決此問題。

cac197dc-13ba-11ee-962d-dac502259ad0.png

接下來介紹在RTC處理過程中的自適應編碼部分,AI帶來了哪些提升。 RTC系統(tǒng)中最大的成本在于帶寬,而帶寬和清晰度是相輔相成的。一方面希望節(jié)省帶寬成本,另一方面希望傳輸高質(zhì)量圖像,這是不可兼得的。那如何在有限帶寬的網(wǎng)絡環(huán)境中,實現(xiàn)更清晰、更低成本的視頻傳輸呢?我們提出了窄帶高清的需求。 在窄帶高清的要求下,比較常用的是內(nèi)容感知編碼,即對視頻幀進行感知分析,識別出感興趣區(qū)域,預測最佳編碼數(shù)據(jù),實現(xiàn)基于場景復雜度的智能感知編碼。這里的關(guān)鍵在于ROI即感興趣區(qū)域的識別,引入ROI視頻編碼后,就變得比較容易。 我們在SDK接入層提供ROI封裝能力,三方通過接口調(diào)用硬件平臺提供的底層ROI編碼 功能。

caf7345a-13ba-11ee-962d-dac502259ad0.png

圖像超分在端側(cè)和云端都有實現(xiàn)機會,可以在低帶寬情況下實現(xiàn)更高質(zhì)量的圖像。目前ORTC視頻超分的AI應用主要在服務側(cè),稍后在架構(gòu)部分會進一步講解。

cb5f261e-13ba-11ee-962d-dac502259ad0.png

在網(wǎng)絡傳輸部分,AI可以帶來哪些提升呢?目前包括幾個方面:

WaveNetEQ,即一種改進版的PLC系統(tǒng),用于語音合成的遞歸神經(jīng)網(wǎng)絡模型,能更好解決音頻丟包問題;

基于神經(jīng)網(wǎng)絡的自適應傳輸;

基于強化學習的擁塞控制算法;

基于RNN的丟包恢復;

-03-

ORTC=>AI

cba72d38-13ba-11ee-962d-dac502259ad0.png

在端側(cè)無論如何優(yōu)化,都會有一些AI無法克服的困難,比如計算復雜度過高、訓練數(shù)據(jù)集不足、模型普適性差、無法應對大規(guī)模應用等。這些端側(cè)的痛點,可以利用ORTC低時延、高保真的特性來解決。

cbf6a372-13ba-11ee-962d-dac502259ad0.png

基于此,我們提供了ORTC和AI融合的架構(gòu),可以有效借助開發(fā)框架引入AI算法服務。例如,在對實時性要求較高的場景,可以借助云端虛擬SDK引入流輔助AI做分析處理;如果是對幀率要求高、時延要求不高的場景,可以借助平臺分發(fā)實現(xiàn)AI算法服務進行流轉(zhuǎn)發(fā)。

cc447106-13ba-11ee-962d-dac502259ad0.png

在語音分析和自然語言處理方面,ORTC可以補充AI在實時語音翻譯/字幕、實時變聲、對話機器人等方面的能力。另外,基于ORTC SDK通道的能力,我們還可以做一些較復雜的場景運用,如遠程聽診。用戶和醫(yī)生之間不僅可以實時通話,同時還可以借助同一個通道傳輸高保真音頻。

cca34136-13ba-11ee-962d-dac502259ad0.png

在視頻分析及處理方面,ORTC可以在遠程活體檢測、數(shù)字人驅(qū)動建模、輔助駕駛、遠程心率測量等場景幫助AI落地。

-04-

ORTC與AI融合

cccf189c-13ba-11ee-962d-dac502259ad0.png

接下來介紹AI和ORTC之間融合的一些實踐探索。

cd1533cc-13ba-11ee-962d-dac502259ad0.png

在RTC云端AI處理關(guān)鍵流程中,視頻和音頻基本可以實時處理(端到端500ms內(nèi)),同時視頻超分在云端利用GPU進行計算之后,可以對視頻圖像做增強,然后回流到ORTC中。

cd4288cc-13ba-11ee-962d-dac502259ad0.png

在ORTC融合AI架構(gòu)中,ORTC可以讓AI算法得到很好的實踐落地,如前述提到的借助ORTC可以實現(xiàn)流的分發(fā),或?qū)崿F(xiàn)AI對圖像實時的抽幀和流轉(zhuǎn)發(fā)流程處理。同時,視頻處理后的智能流可以很好反饋回流到ORTC系統(tǒng)中去。

cda04e80-13ba-11ee-962d-dac502259ad0.png

以背景建模場景為例,AI不僅可以使網(wǎng)絡傳輸質(zhì)量得到很好的提升,對背景區(qū)域進行虛化,還可以保證隱私。此外,我們還可以把通過背景建模算法提取到的背景幀作為長期參考幀,以提升抗弱網(wǎng)的能力。

cdc3c946-13ba-11ee-962d-dac502259ad0.png

基于ORTC和AI的相互作用,我們還做了很多的探索和實踐,例如圖示的實時音視頻多模態(tài)分析。

ce54419c-13ba-11ee-962d-dac502259ad0.png

此外,在元宇宙場景也有相關(guān)探索,例如多模態(tài)驅(qū)動虛擬數(shù)字人,以及云渲染+ORTC串流。

我的分享就到這里,謝謝!





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SDR
    SDR
    +關(guān)注

    關(guān)注

    7

    文章

    242

    瀏覽量

    51960
  • RTC
    RTC
    +關(guān)注

    關(guān)注

    2

    文章

    653

    瀏覽量

    71858
  • 傅里葉變換
    +關(guān)注

    關(guān)注

    6

    文章

    446

    瀏覽量

    43697
  • MSE
    MSE
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6699

原文標題:ORTC與AI相互成就之道

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    使用NORDIC AI的好處

    Nordic 的 Edge AI 主要有以下幾個好處(基于官方資料總結(jié)): 極低功耗、延長電池壽命 在本地運行 AI,減少無線傳輸次數(shù),而無線收發(fā)是最耗電的部分。設備只需上傳“結(jié)果/事件”,而不是
    發(fā)表于 01-31 23:16

    瑞可達榮獲深藍汽車2025年度質(zhì)量貢獻獎

    近日,瑞可達憑借在深藍汽車項目中長達九年的穩(wěn)定交付和可靠質(zhì)量,榮獲“質(zhì)量貢獻獎”。這份榮譽,不僅是對瑞可達產(chǎn)品實力的高度認可,也見證了雙方九年來的緊密攜手與相互成就。從最初合作到如今的戰(zhàn)略互信,瑞可達始終堅守品質(zhì)初心,以可靠的連接系統(tǒng)解決方案,為深藍汽車的快速發(fā)展提供堅實支撐。
    的頭像 發(fā)表于 01-26 16:15 ?750次閱讀

    純4G?血版AI小智產(chǎn)品方案 #小智AI #AI方案商 #4G通話 #AI終端產(chǎn)品

    AI
    不太正經(jīng)的攻城獅
    發(fā)布于 :2025年12月21日 14:36:55

    愛芯元智榮獲2025全球電子成就獎之年度創(chuàng)新產(chǎn)品獎

    近日(11月25日),在AspenCore主辦的“2025全球電子成就獎”頒獎典禮上,愛芯元智憑借其邊緣計算AI芯片——“愛芯元曦”系列,成功摘得“年度創(chuàng)新產(chǎn)品獎”。
    的頭像 發(fā)表于 12-03 10:36 ?851次閱讀

    炬芯科技榮膺2025全球電子成就獎之年度潛力AI技術(shù)公司獎

    11月25日,由全球電子工程領(lǐng)域權(quán)威技術(shù)媒體AspenCore重磅發(fā)起的“2025全球電子成就獎”正式揭曉,炬芯科技憑借前瞻性的技術(shù)創(chuàng)新,基于存內(nèi)計算架構(gòu)打造三核異構(gòu)端側(cè)AI芯片,為AI應用注入極致
    的頭像 發(fā)表于 11-27 18:04 ?1288次閱讀

    深圳南柯電子|燈具EMC整改:低碳時代,能效與兼容性的平衡之道

    深圳南柯電子|燈具EMC整改:低碳時代,能效與兼容性的平衡之道
    的頭像 發(fā)表于 11-20 10:00 ?453次閱讀

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅(qū)動科學被認為是科學發(fā)現(xiàn)的第五個范式了,與實驗科學、理論科學、計算科學、數(shù)據(jù)驅(qū)動科學一起構(gòu)成
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    本章節(jié)作者分析了下AI的未來在哪里,就目前而言有來那個兩種思想:①繼續(xù)增加大模型②將大模型改為小模型,并將之優(yōu)化使之與大模型性能不不相上下。 一、大模型是一條不可持續(xù)發(fā)展的道路 大模型的不可
    發(fā)表于 09-14 14:04

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    生物化學計算機,它通過離子、分子間的相互作用來進行復雜的并行計算。因而未來可期的前景是AI硬件將走向AI濕件。 根據(jù)研究,估算出大腦的功率是20W,在進行智力活動時,其功率會增大到25~50W。在大腦進化
    發(fā)表于 09-06 19:12

    AI 芯片浪潮下,職場晉升新契機?

    時可作為個人不斷進取、緊跟行業(yè)發(fā)展步伐的有力佐證,為職業(yè)晉升之路奠定堅實基礎(chǔ)。 AI 芯片行業(yè)蓬勃發(fā)展,為從業(yè)者提供了廣闊的職業(yè)發(fā)展空間,而職稱評審則是對個人專業(yè)能力與職業(yè)成就的權(quán)威認可。深入了解 AI
    發(fā)表于 08-19 08:58

    AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”

    我們要強調(diào)的是,AI不是取代工程師,而是 成就工程師的最大杠桿 。你不必是Transformer作者,但你可以把Llama壓到你的STM32上;你不必是GPU架構(gòu)師,但你可以用RK3588做出
    發(fā)表于 07-30 16:15

    領(lǐng)克品牌累計交付突破150萬臺

    近日,領(lǐng)克品牌累計交付突破150萬臺,樹立中國汽車高價值發(fā)展標桿,這不僅是品牌的里程碑時刻,更是品牌與用戶相互成就、共同成長的最佳見證。
    的頭像 發(fā)表于 07-22 09:56 ?867次閱讀

    油氣行業(yè)AI轉(zhuǎn)型的三昧真火

    聽真話、做真事、見真章,油氣行業(yè)的AI修煉之道
    的頭像 發(fā)表于 06-06 18:32 ?1303次閱讀
    油氣行業(yè)<b class='flag-5'>AI</b>轉(zhuǎn)型的三昧真火

    AI+管理 成就不凡:2025企業(yè)財務數(shù)智化轉(zhuǎn)型論壇”成功舉辦

    人間四月季,鷺島正芳菲。4月23日,由廈門國家會計學院與金蝶聯(lián)合舉辦的“AI+管理 成就不凡——2025企業(yè)財務數(shù)智化轉(zhuǎn)型論壇”隆重召開。五百余位財務領(lǐng)域?qū)<覍W者,產(chǎn)業(yè)界、企業(yè)界管理者齊聚一堂,共同
    的頭像 發(fā)表于 04-25 17:39 ?550次閱讀
    “<b class='flag-5'>AI</b>+管理 <b class='flag-5'>成就</b>不凡:2025企業(yè)財務數(shù)智化轉(zhuǎn)型論壇”成功舉辦