大腦通過識別音節(jié)來分析口語。日內(nèi)瓦大學(xué)(UNIGE)和不斷發(fā)展的語言國家能力研究中心(NCCR)的科學(xué)家設(shè)計了一種計算模型,該模型再現(xiàn)了中樞神經(jīng)系統(tǒng)執(zhí)行此操作所采用的復(fù)雜機(jī)制。該模型匯集了兩個獨立的理論框架,使用等效于大腦活動產(chǎn)生的神經(jīng)元振動來處理關(guān)聯(lián)語音的連續(xù)聲音流。
該模型根據(jù)稱為預(yù)測編碼的理論起作用,從而大腦通過不斷嘗試基于候選假設(shè)(此模型中的音節(jié))來預(yù)測感覺信號來優(yōu)化感知。結(jié)果模型在《自然通訊》雜志上進(jìn)行了描述,該模型有助于實時識別以自然語言說出的數(shù)百個句子中包含的數(shù)千個音節(jié)。這證實了神經(jīng)元振動可以用來協(xié)調(diào)我們聽到的音節(jié)流與大腦預(yù)測的想法。
UNIGE醫(yī)學(xué)院基礎(chǔ)神經(jīng)科學(xué)系教授,不斷發(fā)展的語言NCCR聯(lián)合主任Anne-Lise Giraud說:“腦部活動會產(chǎn)生可通過腦電圖測量的神經(jīng)元振蕩。”這些是電磁波,是由整個神經(jīng)元網(wǎng)絡(luò)的相干電活動產(chǎn)生的。有幾種類型,根據(jù)它們的頻率定義。它們被稱為α,β,θ,δ或γ波。這些節(jié)奏單獨或疊加在一起,與不同的認(rèn)知功能相關(guān),例如感知,記憶,注意力,機(jī)敏性等。
但是,神經(jīng)科學(xué)家尚不知道他們是否對這些功能做出積極貢獻(xiàn)以及如何發(fā)揮作用。在2015年發(fā)表的一項較早研究中,Giraud教授的團(tuán)隊表明,theta波(低頻)和gamma波(高頻)相互配合,對音節(jié)中的音流進(jìn)行排序,并分析其內(nèi)容,以便對其進(jìn)行識別。
總部位于日內(nèi)瓦的科學(xué)家根據(jù)這些生理節(jié)律開發(fā)了一種突跳的神經(jīng)網(wǎng)絡(luò)計算機(jī)模型,該模型在現(xiàn)場(在線)音節(jié)排序方面的性能優(yōu)于傳統(tǒng)的自動語音識別系統(tǒng)。
在他們的第一個模型中,theta波(介于4赫茲與8赫茲之間)使跟隨系統(tǒng)感知的音節(jié)節(jié)奏成為可能。伽馬波(大約30赫茲)用于將聽覺信號切成較小的切片并進(jìn)行編碼。這會產(chǎn)生一個鏈接到每個聲音序列的“音素”配置文件,可以將其與后一個音節(jié)進(jìn)行比較,并與已知音節(jié)庫進(jìn)行比較。這種類型的模型的優(yōu)點之一是,它可以自發(fā)地適應(yīng)語音速度,語音速度可能因人而異。
在這篇新文章中,為了更接近生物學(xué)現(xiàn)實,Giraud教授和她的團(tuán)隊開發(fā)了一種新模型,其中結(jié)合了來自另一個理論框架的元素,而與神經(jīng)元振蕩無關(guān):“預(yù)測編碼”。
“該理論認(rèn)為,大腦的功能是如此之好,因為它一直在使用外界事件如何產(chǎn)生感官信號的學(xué)習(xí)模型來不斷嘗試預(yù)測和解釋環(huán)境中正在發(fā)生的事情。就口語而言,它試圖找到最有效的方法。根據(jù)已學(xué)到的,并且正在不斷更新的一組心理表征,可能會隨著聲音的發(fā)展而使耳朵感知到的聲音的可能原因?!?Giraud小組的計算神經(jīng)科學(xué)家Itsaso Olasagasti博士說。模型實施。
“我們開發(fā)了一種模擬這種預(yù)測編碼的計算機(jī)模型,”基礎(chǔ)神經(jīng)科學(xué)系研究員,該論文的第一作者Sevada Hovsepyan解釋說?!岸椅覀兺ㄟ^引入振蕩機(jī)制來實現(xiàn)它?!?/p>
進(jìn)入系統(tǒng)的聲音首先由類似于神經(jīng)元種群產(chǎn)生的θ(慢)波調(diào)制。這樣就可以發(fā)信號通知音節(jié)的輪廓。然后,(快速)伽馬波序列有助于在音節(jié)被感知時對音節(jié)進(jìn)行編碼。在此過程中,系統(tǒng)會建議可能的音節(jié),并在必要時更正選擇。在兩個級別之間來回幾次后,它會發(fā)現(xiàn)正確的音節(jié)。隨后,系統(tǒng)在每個音節(jié)結(jié)束時將其重置為零。
該模型已成功使用220個句子中的2888個不同音節(jié)以英語自然語言進(jìn)行了測試。Giraud教授說:“一方面,我們成功地將兩個非常不同的理論框架整合到一個計算機(jī)模型中?!薄傲硪环矫?,我們已經(jīng)表明,神經(jīng)元振蕩很可能在節(jié)奏上使大腦的內(nèi)源性功能與通過感覺器官從外部傳入的信號對齊。如果將其放回預(yù)測編碼理論中,則意味著這些振蕩可能使大腦大腦在正確的時機(jī)做出正確的假設(shè)?!?/p>
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4839瀏覽量
107961 -
計算模型
+關(guān)注
關(guān)注
0文章
29瀏覽量
10097 -
自然語言
+關(guān)注
關(guān)注
1文章
292瀏覽量
14016
發(fā)布評論請先 登錄
TLV320AIC14:高性能語音編解碼器的深度剖析與應(yīng)用指南
探索MAX9860:16位單聲道音頻語音編解碼器的卓越性能與應(yīng)用
從數(shù)據(jù)到模型:如何預(yù)測細(xì)節(jié)距鍵合的剪切力?
TLV320AIC12KIDBTR 低功耗單聲道語音頻編解碼器
大模型賦能物資需求精準(zhǔn)預(yù)測與采購系統(tǒng):功能特點與平臺架構(gòu)解析
蜂鳥E203簡單分支預(yù)測的改進(jìn)
在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗
基于全局預(yù)測歷史的gshare分支預(yù)測器的實現(xiàn)細(xì)節(jié)
端到端語音交互數(shù)據(jù) 精準(zhǔn)賦能語音大模型進(jìn)階
廣和通發(fā)布自研端側(cè)語音識別大模型FiboASR
大模型推理顯存和計算量估計方法研究
明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量
芯資訊|廣州唯創(chuàng)電子MP3語音芯片IC的音頻解碼方式解析
計算模型通過預(yù)測對語音進(jìn)行解碼
評論