91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI提供更好的視頻溝通體驗(yàn),GAN消除視頻通話中的抖動

火花 ? 來源:IT專家網(wǎng) ? 作者:火花 ? 2020-10-22 12:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Maxine是一款云AI視頻流平臺,將使用GAN來提高帶寬性能

Ming-Yu Liu 和Arun Mallya 正在進(jìn)行視頻通話,其中一個(gè)人的畫面開始出現(xiàn)卡頓,直至畫面定格。這是一種常見且令人反感的情況。但與大多數(shù)人不同的是,Liu和Mallya可以做出一些改變。他們是NVIDIA的AI研究人員,專攻計(jì)算機(jī)視覺。在與Ting-Chun Wang共事中,他們意識到可以使用神經(jīng)網(wǎng)絡(luò)來替代被稱為視頻編解碼器的軟件,這種軟件通常用于視頻在網(wǎng)絡(luò)傳輸過程中的壓縮和解壓縮。

迄今為止,他們的工作成果將用戶在視頻通話時(shí)所需的網(wǎng)絡(luò)帶寬壓縮至原來的十分之一,還有望將帶寬消耗降低數(shù)個(gè)數(shù)量級。Mallya表示:“我們希望通過AI提供更好的視頻溝通體驗(yàn),即使在帶寬極低的情況下,也可以從語音升級到視頻通話?!?/span>

GAN讓連接質(zhì)量更佳

即使用戶的面部有遮擋(比如戴著帽子、眼鏡、耳機(jī)或口罩),這項(xiàng)技術(shù)同樣適用。為了增加趣味性,他們在演示中使用了一些裝飾物,這樣用戶可以在線上更改其發(fā)型或衣服或者創(chuàng)建頭像。更重要的是,如上圖所示,借助神經(jīng)網(wǎng)絡(luò)定位,無需再盯著顯示器上方攝像頭才能與對方對視,這增強(qiáng)了面對面對話的感覺。Wang表示:“借助計(jì)算機(jī)視覺技術(shù),我們可以從多個(gè)角度來定位頭部。我們認(rèn)為這將幫助人們更自然地進(jìn)行對話?!?/span>迎接最前沿的AI技術(shù),讓虛擬生活更真實(shí)。

AI賦能視頻通話的原理

AI輔助視頻通話的工作機(jī)制十分簡單。與目前使用壓縮的視頻流的系統(tǒng)類似,參考圖像發(fā)送后,僅用戶眼睛、鼻子和嘴巴周圍幾個(gè)關(guān)鍵點(diǎn)的位置數(shù)據(jù)被發(fā)送,而非發(fā)送大量壓縮過像素的圖像。接收端的生成式對抗網(wǎng)絡(luò)通過初始圖像和面部關(guān)鍵點(diǎn),在本地GPU上重構(gòu)后續(xù)圖像。因此,通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)要比之前少得多。

Liu在GAN領(lǐng)域的工作成果GauGAN曾引發(fā)關(guān)注。GauGAN是一種可以將涂鴉轉(zhuǎn)化為寫實(shí)藝術(shù)作品的AI工具,目前已經(jīng)創(chuàng)建了超過一百萬張圖像。該工具可在AI Playground中獲取。Liu表示:“疫情期間頻繁的視頻會議啟發(fā)了我們,因此我們開始探索突破帶寬瓶頸的方式,讓供應(yīng)商可以同時(shí)為更多人提供服務(wù)?!?/span>

GPU突破帶寬瓶頸

這一方法順應(yīng)當(dāng)前行業(yè)趨勢,將網(wǎng)絡(luò)瓶頸轉(zhuǎn)化為計(jì)算任務(wù),從而借助本地或云端資源更輕松地解決此類問題。NVIDIA媒體集團(tuán)高級產(chǎn)品總監(jiān)Andrew Page表示:“如今,許多公司希望將帶寬問題轉(zhuǎn)化為計(jì)算問題,這是因?yàn)閹捯话愫茈y增加,而增強(qiáng)算力則相對容易?!?/span>

NVIDIA Maxine搭配了一套視頻會議和流媒體服務(wù)工具

AI 工具優(yōu)化視頻服務(wù)

GAN視頻壓縮是NVIDIA Maxine即將推出的幾個(gè)功能之一,這是一個(gè)云AI視頻流平臺,用于增強(qiáng)視頻會議和電話質(zhì)量。它將音頻、視頻和對話式AI功能整合在一個(gè)工具包中,并支持多種設(shè)備。在上周的GTC大會上,NVIDIA宣布推出了Maxine平臺?;谠撈脚_,服務(wù)提供商能夠在提供超高分辨率的視頻的同時(shí),實(shí)現(xiàn)實(shí)時(shí)翻譯、噪聲消除和情景感知的閉路字幕。用戶可以享受到人臉校正、虛擬助手和化身逼真的動畫角色等功能。

Page表示:“視頻會議正在經(jīng)歷一場復(fù)興。疫情期間,它的缺點(diǎn)給所有人帶來了不愉快的使用體驗(yàn),但回歸視覺動物的屬性,視頻終將成為人們今后生活中的一部分?!?span style="text-indent: 2em;">通過利用基于Tensor Core核心的NVIDIA GPU,Maxine可運(yùn)行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對話式AI的SDK,提供了一套語音和文本功能。 它們共同提供了當(dāng)今有用的AI功能,并成為未來視頻產(chǎn)品和服務(wù)的基石。

fqj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301548
  • 視頻通話
    +關(guān)注

    關(guān)注

    0

    文章

    49

    瀏覽量

    12399
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    CDC7005:高性能時(shí)鐘合成器與抖動消除

    CDC7005:高性能時(shí)鐘合成器與抖動消除器 在電子工程師的日常工作,時(shí)鐘合成器與抖動消除器是至關(guān)重要的元件,它們能夠?yàn)橄到y(tǒng)
    的頭像 發(fā)表于 02-10 14:00 ?257次閱讀

    MAXIM CMOS視頻復(fù)用器/放大器:高性能視頻應(yīng)用的理想之選

    、MAX454和MAX455,為視頻應(yīng)用提供了出色的解決方案。本文將詳細(xì)介紹這些產(chǎn)品的特點(diǎn)、技術(shù)參數(shù)和應(yīng)用場景,幫助電子工程師更好地了解和使用這些產(chǎn)品。 文件下載: MAX453.pdf 一、產(chǎn)品概述
    的頭像 發(fā)表于 01-29 16:45 ?194次閱讀

    重塑音頻通話體驗(yàn)!A-29P AI 降噪回音消除模塊賦能千行百業(yè)

    A-29P神經(jīng)網(wǎng)絡(luò)AI降噪回音消除模塊創(chuàng)新突破音頻處理技術(shù)瓶頸,融合DSP數(shù)字處理與AI降噪算法,實(shí)現(xiàn)100dB回音消除深度和45-90dB降噪效果,有效解決車載
    的頭像 發(fā)表于 11-18 09:33 ?1232次閱讀
    重塑音頻<b class='flag-5'>通話</b>體驗(yàn)!A-29P <b class='flag-5'>AI</b> 降噪回音<b class='flag-5'>消除</b>模塊賦能千行百業(yè)

    高效降噪,清晰通話:NR-37 回音消除模塊賦能多場景音頻溝通

    NR-37雙麥陣列回音消除模塊采用數(shù)字語音處理技術(shù),提供高效音頻解決方案。其核心優(yōu)勢包括60dB回音消除能力、20dB降噪效果,支持單/雙麥模式,兼容差分/單端接口。模塊采用插針與半孔焊盤雙
    的頭像 發(fā)表于 11-13 09:18 ?597次閱讀
    高效降噪,清晰<b class='flag-5'>通話</b>:NR-37 回音<b class='flag-5'>消除</b>模塊賦能多場景音頻<b class='flag-5'>溝通</b>

    ?LMH1981多格式視頻同步分離器技術(shù)文檔總結(jié)

    三電平同步,輸出提供CMOS邏輯的所有關(guān)鍵定時(shí)信號,其中 從軌道到軌道的擺動 (V~CC~和 GND),包括復(fù)合、水平和 垂直同步、連拍/后廊定時(shí)、奇數(shù)/偶數(shù)場和視頻格式輸出。HSync 功能 其前緣(下降)沿的
    的頭像 發(fā)表于 09-19 10:18 ?990次閱讀
    ?LMH1981多格式<b class='flag-5'>視頻</b>同步分離器技術(shù)文檔總結(jié)

    ?LMH1983 3G/HD/SD視頻時(shí)鐘發(fā)生器技術(shù)文檔總結(jié)

    字音頻 AES3/EBU 標(biāo)準(zhǔn)的應(yīng)用。 它為任何 SDI 發(fā)射器提供抖動參考時(shí)鐘,以滿足嚴(yán)格的輸出抖動 規(guī)格,沒有額外的時(shí)鐘清潔電路。
    的頭像 發(fā)表于 09-16 15:26 ?1110次閱讀
    ?LMH1983 3G/HD/SD<b class='flag-5'>視頻</b>時(shí)鐘發(fā)生器技術(shù)文檔總結(jié)

    高通如何利用AI提升關(guān)鍵用例的用戶體驗(yàn)

    在這個(gè)數(shù)字連接日益重要的世界,人工智能(AI)在提升日常連接體驗(yàn)方面的作用不容小覷。從優(yōu)化游戲體驗(yàn)到確保無縫視頻通話AI正悄然變革人們與
    的頭像 發(fā)表于 08-28 10:22 ?1167次閱讀

    RK3576賦能無人機(jī)巡檢:多路視頻+AI識別引領(lǐng)智能化變革

    巡檢,需要快速、大量的采集作物表型信息并進(jìn)行分析; 難點(diǎn)在于: 1)多路視頻同步采集對帶寬和處理能力要求高; 2)飛行過程AI識別必須實(shí)時(shí),否則漏檢率高; 3)機(jī)載設(shè)備功耗過高會
    發(fā)表于 08-20 17:26

    AI視頻分析系統(tǒng)

    方案背景人工智能大時(shí)代背景下,視頻應(yīng)用領(lǐng)域相關(guān)的行業(yè)應(yīng)用方式已經(jīng)發(fā)生了深刻的變化,各論安防監(jiān)控還是各類垂直行業(yè)視頻應(yīng)用,都需要AI視覺分析與識別技術(shù)助力,而且需求廣泛而迫切。在應(yīng)用層面,以AI
    的頭像 發(fā)表于 08-06 14:39 ?951次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>分析系統(tǒng)

    AI視頻識別系統(tǒng)的應(yīng)用領(lǐng)域

    一、城市治理現(xiàn)代化 AI視頻識別技術(shù) 正深度重構(gòu)城市管理體系。在城市安防領(lǐng)域,系統(tǒng)通過行為模式分析實(shí)現(xiàn)異常事件主動預(yù)警,對人員聚集、異常滯留等場景進(jìn)行智能識別;交通治理實(shí)時(shí)監(jiān)測車流密度、違法行為
    的頭像 發(fā)表于 07-24 11:06 ?1223次閱讀

    【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】視頻會議場景下的 AI 應(yīng)用(電子云臺 EPTZ、人像居中 / 追蹤、畫中畫)

    下,人物居中功能可將教師人像保持在畫面中間,并且相比全景畫面能看到更多教師動作細(xì)節(jié)。   蘋果設(shè)備在近年也推出了人像居中功能來提供更好視頻通話體驗(yàn)。 3、畫中畫 PIP   當(dāng)參
    發(fā)表于 07-09 20:56

    神經(jīng)網(wǎng)絡(luò)AI降噪回音消除模塊 A-29說明書

    A-29P 是一款高性能的 DSP 數(shù)字語音處理模塊,針對所有免提全雙工通話設(shè)備的回音 問題進(jìn)行消除(AEC),并具有超強(qiáng)的 AI 環(huán)境噪音壓制(
    發(fā)表于 06-18 15:23 ?0次下載

    4K、多模態(tài)、長視頻AI視頻生成的下一個(gè)戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質(zhì)視頻
    的頭像 發(fā)表于 06-16 00:13 ?7309次閱讀

    A-29P AI智能降噪回音消除模塊說明書

    通話設(shè)備獲得更好的語音品質(zhì)。在同類型模塊,主芯片的處理能力,及算法差異,在外形結(jié)構(gòu)比較小,喇叭音量又很大的通話產(chǎn)品,回音
    發(fā)表于 05-26 16:51 ?1次下載

    鯤云科技提供智慧高速AI視頻分析解決方案

    鯤云科技響應(yīng)國家及地方的高速公路信息化、智能化政策,提供“算力+算法+平臺”一體化的智慧高速 AI 視頻分析解決方案,滿足交警部門和高速集團(tuán)日常運(yùn)營和管理需求,通過智能化的手段,提高工作效率。
    的頭像 發(fā)表于 03-27 14:53 ?1075次閱讀