91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA推出多語種語音AI開放數(shù)據(jù)集與模型

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-09-23 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

新發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬小時音頻,可用于訓練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。

在全球約 7,000 種語言中,AI 語言模型所支持的語言僅占到極少數(shù)。NVIDIA 正通過新發(fā)布的數(shù)據(jù)集與模型攻克此難題。新數(shù)據(jù)集與模型可用于為 25 種歐洲語言開發(fā)高質(zhì)量的語音識別與翻譯 AI ,涵蓋克羅地亞語、愛沙尼亞語、馬耳他語等數(shù)據(jù)稀缺的語言。

借助這些工具,開發(fā)者能夠輕松擴展 AI 應用,支持全球用戶在生產(chǎn)級用例中使用快速、精準的語音技術(shù),例如多語種聊天機器人、客服語音智能體和近實時翻譯服務。具體包括:

Granary:一個龐大的開源多語種語音數(shù)據(jù)集,包含約百萬小時的音頻素材,其中包括近 65 萬小時的語音識別數(shù)據(jù),以及超過 35 萬小時的語音翻譯數(shù)據(jù)。

NVIDIA Canary-1b-v2:一個基于 Granary 數(shù)據(jù)集訓練的十億參數(shù)模型,可實現(xiàn)歐洲語言的高質(zhì)量轉(zhuǎn)錄,并支持英語與二十余種語言間的互譯。該模型在 Hugging Face 開放模型榜多語言語音識別評測中排名靠前。

NVIDIA Parakeet-tdt-0.6b-v3:一個精簡型 6 億參數(shù)模型,專為實時或大批量轉(zhuǎn)錄 Granary 支持的語言而設(shè)計。該模型是 Hugging Face 排行榜的多語言模型中吞吐量最高的(以轉(zhuǎn)錄音頻時長除以計算時間衡量)。

Granary 相關(guān)論文已于語言處理大會 Interspeech 上發(fā)表。該數(shù)據(jù)集及全新 Canary 和 Parakeet 模型現(xiàn)已在 Hugging Face 平臺上開放獲取。

Granary 如何解決數(shù)據(jù)稀缺問題

為構(gòu)建 Granary 數(shù)據(jù)集,NVIDIA 語音 AI 團隊與卡內(nèi)基梅隆大學和布魯諾 · 凱斯勒基金會 (Fondazione Bruno Kessler) 的研究人員開展了協(xié)作。團隊通過NVIDIA NeMo語音數(shù)據(jù)處理器 (NVIDIA NeMo Speech Data Processor) 套件驅(qū)動的創(chuàng)新處理管線,將未標注的音頻轉(zhuǎn)換成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。

該管線使研究人員無需耗費大量人力對數(shù)據(jù)進行標記,即可將公開語音數(shù)據(jù)升級成適用于 AI 訓練的格式。該套件已在 GitHub 上開源。

憑借 Granary 數(shù)據(jù)集提供的整潔、即用的數(shù)據(jù),開發(fā)者可以搶先一步開發(fā)處理歐盟 24 種官方語言的轉(zhuǎn)錄與翻譯模型。

對于在人工標記數(shù)據(jù)集中代表性不足的歐洲語言,Granary 提供了開發(fā)更具包容性的語音技術(shù)所需的關(guān)鍵資源,可在減少訓練數(shù)據(jù)量的同時,更加充分地反映出歐洲語言的多樣性。

該團隊在 Interspeech 論文中證明了:相較于其他常見的數(shù)據(jù)集,只需使用約一半量的 Granary 訓練數(shù)據(jù),即可讓自動語音識別 (ASR) 和自動語音翻譯 (AST) 達到目標準確率。

使用 NVIDIA NeMo 大幅加快轉(zhuǎn)錄速度

新發(fā)布的 Canary 和 Parakeet 模型,向開發(fā)者展示了如何利用 Granary 構(gòu)建符合其目標應用需求的定制化模型。Canary-1b-v2 針對復雜任務提高了準確性,而 Parakeet-tdt-0.6b-v3 則專為需要高速、低延遲的任務設(shè)計。

通過分享 Granary 數(shù)據(jù)集及這兩個模型的開發(fā)方法,NVIDIA 幫助全球語音 AI 開發(fā)者社區(qū)將該數(shù)據(jù)處理工作流應用于其他 ASR / AST 模型或更多語言領(lǐng)域,從而推動語音 AI 的創(chuàng)新。

Canary-1b-v2 采用寬松型許可證,將 Canary 系列模型支持的語言從 4 種擴展至 25 種。其轉(zhuǎn)錄與翻譯質(zhì)量可媲美 3 倍規(guī)模的模型,同時推理速度最快可提升 10 倍。

NVIDIA NeMo 是一個用于管理 AI 智能體生命周期的模塊化軟件套件,極大加快了語音 AI 模型的開發(fā)。該軟件套件中的 NeMo Curator 幫助團隊從源數(shù)據(jù)中篩選合成樣本,確保僅使用高質(zhì)量樣本進行訓練模型。團隊還使用 NeMo 語音數(shù)據(jù)處理器套件完成文本轉(zhuǎn)錄與音頻文件的對齊、數(shù)據(jù)格式轉(zhuǎn)換等任務。

Parakeet-tdt-0.6b-v3 優(yōu)先保障高吞吐量,單次推理即可轉(zhuǎn)錄 24 分鐘音頻片段。該模型能自動識別輸入音頻的語言類型,無需額外提示步驟即可完成轉(zhuǎn)錄。

Canary 與 Parakeet 模型均能在輸出中提供精準的標點符號、規(guī)范的大小寫及單詞級時間戳。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109804
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39866

    瀏覽量

    301524
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3756

    瀏覽量

    52127

原文標題:推動語音 AI 創(chuàng)新:NVIDIA 發(fā)布多語種語音 AI 開放數(shù)據(jù)集與模型

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA推出代理式AI藍圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運營商能夠利用自有數(shù)據(jù)訓練 AI 智能體,構(gòu)建自主網(wǎng)絡。
    的頭像 發(fā)表于 03-06 17:37 ?2827次閱讀

    利用NVIDIA Nemotron開放模型構(gòu)建智能文檔處理系統(tǒng)

    基于 NVIDIA Nemotron 開放模型AI 驅(qū)動文檔智能,增強科學研究、金融和法律等領(lǐng)域工作流。
    的頭像 發(fā)表于 02-25 11:21 ?445次閱讀

    NVIDIA在CES 2026發(fā)布全新開放模型、數(shù)據(jù)和工具

    為擴展開放模型生態(tài),NVIDIA 發(fā)布全新開放模型、數(shù)據(jù)和工具,推動各行業(yè)
    的頭像 發(fā)表于 01-09 10:42 ?568次閱讀

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    的仿真工具和數(shù)據(jù)。 l Alpamayo 1、AlpaSim 和物理 AI 開放數(shù)據(jù)可為開發(fā)
    的頭像 發(fā)表于 01-06 09:40 ?393次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b> Alpamayo 系列開源 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    NVIDIA 推出 Nemotron 3 系列開放模型

    token 數(shù)。 ● Nemotron 通過先進的強化學習技術(shù)以及大規(guī)模并行多環(huán)境后訓練,實現(xiàn)了卓越的準確率。 ● NVIDIA 率先推出整套前沿的開放模型、訓練
    的頭像 發(fā)表于 12-16 09:27 ?639次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b> Nemotron 3 系列<b class='flag-5'>開放</b><b class='flag-5'>模型</b>

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動出行領(lǐng)域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA)
    的頭像 發(fā)表于 12-13 09:50 ?1351次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI
    的頭像 發(fā)表于 12-01 09:25 ?1155次閱讀

    給智能門鎖“裝個移動硬盤”:廣州唯創(chuàng)電子WTV語音芯片外置SPI Flash方案破解多語種語音存儲困局

    廠家,以其創(chuàng)新的WTV系列語音芯片外置SPIFlash方案,如同給門鎖配備了一個“海量移動硬盤”,徹底破解了智能門鎖的多語種語音存儲困局。一、行業(yè)痛點:智能門鎖的“
    的頭像 發(fā)表于 11-17 07:43 ?774次閱讀
    給智能門鎖“裝個移動硬盤”:廣州唯創(chuàng)電子WTV<b class='flag-5'>語音</b>芯片外置SPI Flash方案破解<b class='flag-5'>多語種</b><b class='flag-5'>語音</b>存儲困局

    云知聲多項業(yè)務營收大漲

    依托山海大模型,云知聲不斷開拓陣地,開發(fā)了面向東盟等海外市場和國內(nèi)方言市場的語音模型,模型顯著提升了在多語種、多方言環(huán)境下的
    的頭像 發(fā)表于 09-10 15:44 ?677次閱讀

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會主辦,北京語言大學、北京第二外國語學院、北京市翻譯協(xié)會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關(guān)村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1250次閱讀

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓練框架及 Auto Configurator 優(yōu)化工
    的頭像 發(fā)表于 08-20 14:21 ?867次閱讀

    廣和通發(fā)布自研端側(cè)語音識別大模型FiboASR

    、高效會議記錄、多語種即時翻譯等核心領(lǐng)域?qū)崿F(xiàn)重大技術(shù)突破,致力于為終端用戶帶來更自然、高效、私密的語音交互體驗。
    的頭像 發(fā)表于 08-04 11:43 ?1616次閱讀

    普強智能語音技術(shù)重新定義車載交互邊界

    普強憑借自主研發(fā)的智能語音技術(shù),為某國內(nèi)頭部車企提供的語音前處理、喚醒詞、ASR、TTS等技術(shù)模塊,構(gòu)建覆蓋泰語、俄語、韓語、日語等多語種語音交互解決方案,助力其海外車型實現(xiàn)無障礙人
    的頭像 發(fā)表于 07-11 14:00 ?1180次閱讀

    英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術(shù)的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基礎(chǔ)
    的頭像 發(fā)表于 03-20 19:01 ?1352次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業(yè)務就緒型基礎(chǔ) 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發(fā)表于 03-19 09:31 ?397次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b><b class='flag-5'>開放</b>推理 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺