日网一区二区三区,亚洲成人AV免费观看网址,日本美女A片日韩无码第一区

新發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬小時音頻，可用于訓練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。

在全球約 7,000 種語言中，AI 語言模型所支持的語言僅占到極少數(shù)。NVIDIA 正通過新發(fā)布的數(shù)據(jù)集與模型攻克此難題。新數(shù)據(jù)集與模型可用于為 25 種歐洲語言開發(fā)高質(zhì)量的語音識別與翻譯 AI ，涵蓋克羅地亞語、愛沙尼亞語、馬耳他語等數(shù)據(jù)稀缺的語言。

借助這些工具，開發(fā)者能夠輕松擴展 AI 應用，支持全球用戶在生產(chǎn)級用例中使用快速、精準的語音技術(shù)，例如多語種聊天機器人、客服語音智能體和近實時翻譯服務。具體包括：

Granary：一個龐大的開源多語種語音數(shù)據(jù)集，包含約百萬小時的音頻素材，其中包括近 65 萬小時的語音識別數(shù)據(jù)，以及超過 35 萬小時的語音翻譯數(shù)據(jù)。

NVIDIA Canary-1b-v2：一個基于 Granary 數(shù)據(jù)集訓練的十億參數(shù)模型，可實現(xiàn)歐洲語言的高質(zhì)量轉(zhuǎn)錄，并支持英語與二十余種語言間的互譯。該模型在 Hugging Face 開放模型榜多語言語音識別評測中排名靠前。

NVIDIA Parakeet-tdt-0.6b-v3：一個精簡型 6 億參數(shù)模型，專為實時或大批量轉(zhuǎn)錄 Granary 支持的語言而設(shè)計。該模型是 Hugging Face 排行榜的多語言模型中吞吐量最高的（以轉(zhuǎn)錄音頻時長除以計算時間衡量）。

Granary 相關(guān)論文已于語言處理大會 Interspeech 上發(fā)表。該數(shù)據(jù)集及全新 Canary 和 Parakeet 模型現(xiàn)已在 Hugging Face 平臺上開放獲取。

Granary 如何解決數(shù)據(jù)稀缺問題

為構(gòu)建 Granary 數(shù)據(jù)集，NVIDIA 語音 AI 團隊與卡內(nèi)基梅隆大學和布魯諾 · 凱斯勒基金會 (Fondazione Bruno Kessler) 的研究人員開展了協(xié)作。團隊通過NVIDIA NeMo語音數(shù)據(jù)處理器 (NVIDIA NeMo Speech Data Processor) 套件驅(qū)動的創(chuàng)新處理管線，將未標注的音頻轉(zhuǎn)換成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。

該管線使研究人員無需耗費大量人力對數(shù)據(jù)進行標記，即可將公開語音數(shù)據(jù)升級成適用于 AI 訓練的格式。該套件已在 GitHub 上開源。

憑借 Granary 數(shù)據(jù)集提供的整潔、即用的數(shù)據(jù)，開發(fā)者可以搶先一步開發(fā)處理歐盟 24 種官方語言的轉(zhuǎn)錄與翻譯模型。

對于在人工標記數(shù)據(jù)集中代表性不足的歐洲語言，Granary 提供了開發(fā)更具包容性的語音技術(shù)所需的關(guān)鍵資源，可在減少訓練數(shù)據(jù)量的同時，更加充分地反映出歐洲語言的多樣性。

該團隊在 Interspeech 論文中證明了：相較于其他常見的數(shù)據(jù)集，只需使用約一半量的 Granary 訓練數(shù)據(jù)，即可讓自動語音識別 (ASR) 和自動語音翻譯 (AST) 達到目標準確率。

使用 NVIDIA NeMo 大幅加快轉(zhuǎn)錄速度

新發(fā)布的 Canary 和 Parakeet 模型，向開發(fā)者展示了如何利用 Granary 構(gòu)建符合其目標應用需求的定制化模型。Canary-1b-v2 針對復雜任務提高了準確性，而 Parakeet-tdt-0.6b-v3 則專為需要高速、低延遲的任務設(shè)計。

通過分享 Granary 數(shù)據(jù)集及這兩個模型的開發(fā)方法，NVIDIA 幫助全球語音 AI 開發(fā)者社區(qū)將該數(shù)據(jù)處理工作流應用于其他 ASR / AST 模型或更多語言領(lǐng)域，從而推動語音 AI 的創(chuàng)新。

Canary-1b-v2 采用寬松型許可證，將 Canary 系列模型支持的語言從 4 種擴展至 25 種。其轉(zhuǎn)錄與翻譯質(zhì)量可媲美 3 倍規(guī)模的模型，同時推理速度最快可提升 10 倍。

NVIDIA NeMo 是一個用于管理 AI 智能體生命周期的模塊化軟件套件，極大加快了語音 AI 模型的開發(fā)。該軟件套件中的 NeMo Curator 幫助團隊從源數(shù)據(jù)中篩選合成樣本，確保僅使用高質(zhì)量樣本進行訓練模型。團隊還使用 NeMo 語音數(shù)據(jù)處理器套件完成文本轉(zhuǎn)錄與音頻文件的對齊、數(shù)據(jù)格式轉(zhuǎn)換等任務。

Parakeet-tdt-0.6b-v3 優(yōu)先保障高吞吐量，單次推理即可轉(zhuǎn)錄 24 分鐘音頻片段。該模型能自動識別輸入音頻的語言類型，無需額外提示步驟即可完成轉(zhuǎn)錄。

Canary 與 Parakeet 模型均能在輸出中提供精準的標點符號、規(guī)范的大小寫及單詞級時間戳。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴