91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA Riva實現(xiàn)將語音轉錄成文本

星星科技指導員 ? 來源:NVIDIA ? 作者:About Sirisha Rella, ? 2022-03-31 17:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

每天,電信、金融和統(tǒng)一通信即服務( UCaaS )等行業(yè)都會產生數(shù)百萬分鐘的音頻。這些音頻會議記錄可以轉錄,以便為呼叫中心代理提供實時建議,從客戶呼叫記錄中提取見解,或在視頻會議中生成實時字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

圖 1 。人工智能在工業(yè)中的應用

自動語音識別使您能夠將語音轉錄成文本。生成高質量的文字記錄是一項挑戰(zhàn),因為這些技能需要理解特定于行業(yè)的術語、數(shù)百到數(shù)千分鐘特定于領域的培訓音頻以及實時運行的管道。 NVIDIA Riva 語音識別是一項技術,可為跨行業(yè)的幾個常見用例提供世界級的實時準確度。

在這篇文章中,我們討論 Riva 語音識別。后續(xù)文章將討論如何定制語音識別模型,并將其作為優(yōu)化技能進行部署:

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 語音識別

Riva 是 GPU 加速的 AI 語音 SDK ,用于實時轉錄和虛擬助理等對話 AI 應用程序。 Riva 具有以下優(yōu)點:

NGC 中經過預訓練的最先進的語音模型

沒有編碼工具,例如TAO Toolkit,用于在自定義數(shù)據(jù)集上微調這些模型

用于高性能推理的優(yōu)化語音識別和語音合成管道

Riva 下面的模型是基于數(shù)百到數(shù)千小時的開放和真實世界數(shù)據(jù)進行訓練的,這些數(shù)據(jù)來自電信、金融、醫(yī)療保健和 NVIDIA 超級計算機上的教育等行業(yè)。數(shù)據(jù)集樣本還來自嘈雜的環(huán)境、自發(fā)的語音對話、多種英語口音和不同的采樣率。所有這些屬性都有助于生成噪聲魯棒、高質量的轉錄。

Riva 語音識別技能在各種真實世界的用例數(shù)據(jù)集上進行評估,包括視頻會議、聯(lián)絡中心、播客和技術視頻。您可以在云中、數(shù)據(jù)中心和邊緣部署這些技能。

Riva 語音識別管道在保持準確性的同時,為新的最先進的體系結構提供支持。圖 2 顯示了在過去 3 年中,通過新的模型體系結構、訓練方法以及最新的基于 TensorRT 和 GPU 的優(yōu)化,語音準確性的提高。

Riva ASR accuracy improved by 50% in 3 years.

圖 2 。 Riva ASR 精度改進

使用 Riva ,您可以在流式或批處理模式下以實時延遲快速部署和擴展到數(shù)百和數(shù)千個并發(fā)流。

關于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技術產品營銷經理,專注于計算機視覺、語音和基于語言的深度學習應用。 Sirisha 獲得了密蘇里大學堪薩斯城分校的計算機科學碩士學位,是國家科學基金會大學習中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入學習的技術營銷工程師,負責廣泛的 DL 軟件產品。他擁有紐約大學計算機科學碩士學位,專注于計算機視覺、數(shù)據(jù)可視化和城市分析的橫斷面。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5653

    瀏覽量

    109935
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116134
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文了解語音AI的運作方式

    語音 AI 是對話式 AI 的一個子集,包括可將人類語音轉換為文本的自動語音識別 (ASR) 和文本
    的頭像 發(fā)表于 02-27 16:10 ?420次閱讀
    一文了解<b class='flag-5'>語音</b>AI的運作方式

    Caterpillar借助NVIDIA技術推動重工業(yè)領域智能化升級

    在 CES 上,Caterpillar 展示了其如何整合 NVIDIA Jetson Thor、語音模型等多項 NVIDIA 技術,為重工業(yè)領域帶來全新的智能化體驗。
    的頭像 發(fā)表于 01-09 10:37 ?503次閱讀

    超擎數(shù)智為您深度解析NVIDIA Quantum-X800 InfiniBand平臺

    NVIDIA
    專精特新
    發(fā)布于 :2026年01月08日 19:47:03

    什么是語音芯片串口AT指令?實現(xiàn)智能語音交互的核心技術詳解

    什么是AT指令AT指令是一套基于串行通信接口的標準化指令集,專門用于聲音播放芯片與其他設備之間的數(shù)據(jù)傳輸和控制操作。這種通信協(xié)議通過簡單的文本命令格式,實現(xiàn)了對語音
    的頭像 發(fā)表于 11-10 12:53 ?504次閱讀
    什么是<b class='flag-5'>語音</b>芯片串口AT指令?<b class='flag-5'>實現(xiàn)</b>智能<b class='flag-5'>語音</b>交互的核心技術詳解

    今日看點:中國電信成為業(yè)內首家實現(xiàn)北斗語音消息的運營商;美創(chuàng)企Substrate研發(fā)新型光刻機

    算法”,為語音極速瘦身,省去用戶短信文字輸入的繁瑣,實現(xiàn) 20 漢字文本支持 6 秒語音消息直接傳輸,未來,中國電信將以“北斗 + 天通”開啟“天地一體”全新場景,
    發(fā)表于 10-31 10:48 ?1562次閱讀

    語音報警器:TTS語音播報,云平臺邏輯自控

    TTS語音播報報警器是一種集成了傳統(tǒng)報警器和TTS(文本語音)技術的智能設備。清晰、準確地用人類語言播報報警原因、位置、狀態(tài)等具體信息。 工作原理 文本
    的頭像 發(fā)表于 10-29 16:31 ?810次閱讀

    NVIDIA推出多語種語音AI開放數(shù)據(jù)集與模型

    新發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬小時音頻,可用于訓練高精度、高吞吐量的 AI 音頻轉錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?1017次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型并實現(xiàn)了推理性能加速,在 NVIDIA 系統(tǒng)上至高達到每
    的頭像 發(fā)表于 08-15 20:34 ?2365次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss模型部署,<b class='flag-5'>實現(xiàn)</b>150萬TPS推理

    語音輸出模塊是什么?自控語音播報

    語音輸出模塊(VoiceOutputModule)是一種將數(shù)字信號或文本信息轉換為人類可聽語音的硬件/軟件組件。相當于設備的“嘴巴”,讓機器能夠通過聲音與人進行交互。 一、工作原理 1.輸入接收
    的頭像 發(fā)表于 08-13 15:20 ?1007次閱讀

    廣和通發(fā)布自研端側語音識別大模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為端側設備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,在低延遲語音交互、實時語音
    的頭像 發(fā)表于 08-04 11:43 ?1666次閱讀

    Air8000 TTS開源,語音合成從此“零距離”!

    文本語音)——是一種將書面文本轉換為人類可聽語音的技術,通過算法和模型模擬人類發(fā)聲,實現(xiàn)機器“說話”。其核心目標是生成自然、流暢且富有表現(xiàn)
    的頭像 發(fā)表于 07-03 16:33 ?662次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b>合成從此“零距離”!

    怎么用labview實現(xiàn)語音轉文字

    請問怎么用labview實現(xiàn)語音轉文字
    發(fā)表于 07-01 16:27

    KITPROG燒錄器怎么燒錄成jlink的使用swd?

    KITPROG燒錄器怎么燒錄成jlink的使用swd 謝謝
    發(fā)表于 05-22 07:12

    【CW32模塊使用】語音合成播報模塊

    。SYN6288E 通過異步串 口(UART)通訊方式,接收待合成的文本數(shù)據(jù),實現(xiàn)文本語音(或 TTS 語音)的轉換。
    的頭像 發(fā)表于 03-29 17:25 ?1251次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b>合成播報模塊

    把樹莓派打造成識別文本的“神器”!

    。RaspberryPi也能實現(xiàn)這種文本識別,而且并不困難。我們可以從靜態(tài)圖像或攝像頭的實時流中讀取文本。在本教程中,我們將探討如何使用RaspberryPi實現(xiàn)
    的頭像 發(fā)表于 03-25 09:30 ?1020次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!