從全球協(xié)作,到國際交流,再到知識普惠,實時語音轉寫已經(jīng)成為信息傳遞的重要工具。它讓跨越時空的交流更順暢,讓內容的獲取更高效。
近期,訊飛實時語音轉寫大模型上線訊飛開放平臺,面向向開發(fā)者和企業(yè)開放調用。不僅在支持語種和方言數(shù)上業(yè)界領先,相比于傳統(tǒng)“能轉寫”的方案,它還把“快、準、穩(wěn)”做到了新高度,堪稱語音轉寫領域的“全能選手”。
語種覆蓋廣:支持37種語種、202種方言(全國地級市方言全覆蓋)免切識別,可滿足復雜的多樣化語言場景需求;
識別準確率高:抗噪、抗口音干擾效果大幅提升,極大提高了語音識別準確度,轉寫準確率超98%;
角色分離準:對角色盲分效果重點提升,同時支持基于聲紋分離發(fā)音人角色,效果突出;
響應速度快:對于音頻流實現(xiàn)毫秒級識別,并返回帶有時間戳的文字流,便于二次開發(fā);
01傳統(tǒng)轉寫的“能力天花板”
科幻經(jīng)典《銀河系漫游指南》中,有一種能放進耳朵里、實現(xiàn)宇宙間萬物生靈實時翻譯的神奇生物——“巴別魚”。如果說“巴別魚”寄托了人類跨越語言鴻溝、實現(xiàn)無縫溝通的夢想,那么實時語音轉寫則讓溝通更清晰、更高效。它像一個“隱形速記員”,把每一句對話即時定格為文字,讓信息不再流失。
從最初的人工手動轉寫到如今的智能化、全流程自動化,實時語音轉寫技術雖在不斷革新、應用的場景日益拓展,但人們在使用時常常遇到不少“麻煩”:
大型體育賽事轉播中,受背景噪音干擾,觀眾看到的字幕可能是“模糊、斷句不全”的結果;
跨國會議上,因未能及時手動切換翻譯模式,在不同語種夾雜的自然表達中,關鍵信息就此丟失;
團隊討論時,實時語音轉寫技術雖然能轉寫出文字,但往往分不清是誰說的,復盤觀點無異于一場“考古工作”;
在線教育場景里,如果老師帶有濃重口音或方言,字幕往往出現(xiàn)明顯延遲甚至錯誤,學習體驗瞬間被打斷;
對追求高效的現(xiàn)代企業(yè)而言,如何在“實時性、穩(wěn)定性與多語言覆蓋”之間找到平衡,始終是一道難題。
02大模型賦能,讓轉寫從‘能用’到‘好用
大模型技術的浪潮給語音帶來了新的機會,在語音識別方面,提升了語言模型覆蓋能力和上下文相關詞識別效果,突破復雜場景效果上限;在多語種方面,提升了語料稀缺語種識別效果,以及跨語言聲音復刻能力。實時語音轉寫,也得以有了一次徹徹底底的“進化升級”。
訊飛開放平臺上線的實時語音轉寫大模型,不僅解決了“能識別”的問題,更解決了“識別得夠快、夠準、夠普適”的問題。
37個語種、202種方言免切識別
從需要用戶“遷就”機器,變成了機器主動“理解”用戶。用戶無需任何手動操作,日語、韓語、俄語、法語、希臘語、西班牙語、孟加拉語等語種及四川話、粵語、客家話、閩南話、上海話等方言,模型都能實時、無縫地精準轉寫,告別因模式切換帶來的信息丟失。
訊飛提出結合語音屬性解耦預訓練的語音大模型,實現(xiàn)了202種方言的免切換使用
在與競品的實際測試中,訊飛實時語音轉寫大模型效果優(yōu)勢明顯。與傳統(tǒng)實時轉寫相比,中文通用場景中,會議場景的轉寫準確率提升15%-20%。
角色分離,精準識人
角色盲分效果進行了重點提升,即便在多人自由討論、無任何預設的場景,也可實時將不同發(fā)言人標記為“發(fā)言人1”“發(fā)言人2”“發(fā)言人3”......會議紀要從此告別混亂,每一條觀點都能清晰溯源;同時,支持基于聲紋注冊來分離發(fā)音人角色。只需提前錄入關鍵參會人員的聲紋,模型在轉寫時就能直接輸出他們的真實姓名或身份。
高識別率,高準確率
實時轉寫的應用場景(如會議、戶外、車載)常存在噪聲、回聲、遠場、多說話人等干擾,基于訊飛提出的聲紋與空間信息雙重解耦的說話人分離技術、語音識別大模型聲學與語言自適應方案,實時語音轉寫大模型在復雜聲學環(huán)境下的抗噪、抗口音干擾效果大幅提升,在真實多變的場景中確保語音識別的準確率。
2024年6月27日,訊飛星火V4.0發(fā)布會上,現(xiàn)場演示強干擾場景下的語言識別
早在2024年,訊飛就已突破了多人混疊場景下的極復雜場景語音轉寫技術,即使在三人混疊說話的場景也能實現(xiàn)86%的語音識別準確率。
03多元化場景應用,溝通效率轉化為生產(chǎn)力
任何一項技術的價值,都要通過具體的場景落地來驗證。當實時語音轉寫大模型被應用到真實的業(yè)務流程時,會發(fā)生怎樣的化學反應?
全球化協(xié)作,再無障礙
無論是遠程跨國會議,還是線下交流,團隊成員可以自由地使用母語或夾雜外語進行討論。會后,一份自動區(qū)分發(fā)言人的結構化紀要即刻生成,溝通效率呈指數(shù)級提升。
智能客服,洞察入微
面對多語種客戶,系統(tǒng)不僅能準確記錄通話內容,更支持自動質檢、情緒分析及客戶畫像生成,可以更好地提升客戶滿意度,挖掘服務短板與銷售商機。
內容創(chuàng)作,擁抱世界
為視頻、直播一鍵生成多語言字幕,內容出海的成本大大降低。一個精彩的創(chuàng)意,可以瞬間觸達全球觀眾。
04二十余年技術沉淀,產(chǎn)品背后的硬實力
要將場景價值從“承諾”兌現(xiàn)為穩(wěn)定可靠的“產(chǎn)品能力”,背后需要有扎實的技術作為支撐。深耕語音領域二十余年,訊飛已推出了多項相關的能力和解決方案,并有了大規(guī)模的落地實踐。
2008-2015年之間,訊飛先后在語音合成、語音評測、語音識別等領域首次超過人類或人類專家水平,此后在機器翻譯、機器閱讀理解和常識推理等方向上持續(xù)突破,并且承擔了語音及語言信息處理國家工程研究中心、國家新一代人工智能開放創(chuàng)新平臺、認知智能全國重點實驗室等平臺,這些為訊飛在大模型時代進行語音技術探索奠定了堅實的基礎。
2024年1月,星火語音大模型正式推出,首批37個主流語種的語音識別效果超過OpenAI Whisper V3。
6月,憑借“多語種智能語音關鍵技術及產(chǎn)業(yè)化”項目榮獲國家科學技術進步獎一等獎,訊飛成為過去十年人工智能領域首個一等獎獲得者。
9月,訊飛在國際權威賽事、語音領域公認“最難語音識別任務”——CHiME-8中奪冠,有效解決了人數(shù)估計、語音重疊、遠場混響、人員移動及對話風格隨意等難題。
10月,星火語音大模型的多語種多方言免切換語音識別能力,首次全部覆蓋了全國地級市共202種方言。
目前,訊飛的實時語音轉寫技術已在訊飛翻譯機、辦公本、訊飛聽見等多款智能軟硬件產(chǎn)品中搭載,同時服務于2025世界人形機器人運動會、成都大運會等重要賽事。在AI技術生態(tài)建設方面,訊飛開放平臺已形成了包括實時語音轉寫大模型在內,以語音為核心的大模型矩陣,覆蓋多種場景,面向海內外開發(fā)者開放調用。
未來,訊飛將持續(xù)優(yōu)化語種覆蓋、準確率與低延遲表現(xiàn),攜手開發(fā)者與企業(yè),構建一個信息溝通高效、無障礙的世界。
點擊閱讀原文,即可開始調用,開啟高效、準確的溝通新體驗。
此外,錄音文件轉寫大模型也已上線訊飛開放平臺,可滿足用戶的非實時音頻處理的需求,適用于語音質檢、會議訪談等場景。
-
訊飛開放平臺
+關注
關注
0文章
21瀏覽量
11789 -
大模型
+關注
關注
2文章
3650瀏覽量
5189
原文標題:多語種、抗噪音、秒識別!訊飛實時語音轉寫大模型上線
文章出處:【微信號:訊飛開放平臺,微信公眾號:訊飛開放平臺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
科大訊飛發(fā)布訊飛星火X1.5及系列AI產(chǎn)品
端到端語音交互數(shù)據(jù) 精準賦能語音大模型進階
廣和通發(fā)布自研端側語音識別大模型FiboASR
訊飛超擬人交互API上線
回顧科大訊飛26周年慶精彩瞬間
科大訊飛聯(lián)手“挑戰(zhàn)杯”加速國產(chǎn)算力應用
訊飛星辰Agent開發(fā)平臺發(fā)布
科大訊飛亮相第137屆廣交會
科大訊飛深度解析DeepSeek-V3/R1推理系統(tǒng)成本
訊飛實時語音轉寫大模型上線
評論