91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

是否可以將Shazam稱為有聽(tīng)歌識(shí)曲功能應(yīng)用的鼻祖?

電子工程師 ? 來(lái)源:lq ? 2019-02-18 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

是否可以將 Shazam 稱為有聽(tīng)歌識(shí)曲功能應(yīng)用的鼻祖?

2018 年 9 月,蘋(píng)果最終以 4 億美金完成對(duì) Shazam 公司的收購(gòu),讓不少人為之振奮,在當(dāng)時(shí)對(duì)外公布的一份聲明中可以看到,自Shazam應(yīng)用登陸App Store以來(lái),是其最受歡迎的iOS應(yīng)用之一。

其實(shí)早在蘋(píng)果 iPhone “出道”之前,Shazam 提供的音樂(lè)識(shí)別服務(wù)和技術(shù)就已戳中了不少用戶的痛點(diǎn)。例如,當(dāng)外界播放一首你喜愛(ài)的歌曲時(shí),手機(jī)應(yīng)用能識(shí)別出該歌曲并調(diào)出手機(jī)內(nèi)同樣的歌曲/原唱,完成后在手機(jī)上播放出來(lái)。

像最早流行的 Gracenote、SoundHound、Track ID、Tunatic,以及如今的第三方音樂(lè) App 如 QQ音樂(lè)、網(wǎng)易云音樂(lè),甚至微信“搖一搖”等也都具備音樂(lè)識(shí)別的功能。

只不過(guò),據(jù)資料顯示,在Shazam 公司 1999 年成立之初,以非?!霸肌钡姆绞教峁┓?wù)的:“用戶聽(tīng)到歌曲,打一個(gè)服務(wù)短號(hào)碼,讓電話那頭聽(tīng)到,然后自動(dòng)掛斷,歌曲信息以短信的形式發(fā)到用戶手機(jī)上?!?/p>

如今,無(wú)論被收購(gòu)之后的 Shazam 是因何種戰(zhàn)略地位為蘋(píng)果生態(tài)提供服務(wù),與其他類似的音樂(lè)識(shí)別軟件在操作界面、細(xì)節(jié)功能有哪些不同,Shazam 仍受到大眾的認(rèn)可。拋開(kāi)此前與蘋(píng)果的關(guān)系、服務(wù)能力不提,Shazam 在音頻識(shí)別上的技術(shù)能力得到公認(rèn)的。

實(shí)際上,早在 2003 年 Shazam 聯(lián)合創(chuàng)始人之一的 Avery Li-Chun Wang 就發(fā)表了一篇論文“An Industrial-Strength Audio Search Algorithm”(《一種工業(yè)級(jí)音頻搜索算法》),提出了基于指紋(fringerprint)的音樂(lè)搜索算法,因其檢索準(zhǔn)確率較高,得到了不少算法工程師的關(guān)注。

編者注:來(lái)自維基百科:聲學(xué)指紋(Acoustic fingerprint)是通過(guò)特定算法從音頻信號(hào)中提取的一段數(shù)字摘要,用于識(shí)別聲音樣本或者快速定位音頻數(shù)據(jù)庫(kù)中的相似音頻。

根據(jù)論文資料,Shazam 設(shè)計(jì)了一套非常靈活的音頻搜索引擎。其算法抗噪聲和擾動(dòng)能力強(qiáng),計(jì)算復(fù)雜度低,同時(shí)具有很高的可擴(kuò)展性。即使外界噪音很強(qiáng),它也可以迅速通過(guò)手機(jī)錄制的一小段壓縮音頻從百萬(wàn)級(jí)的曲庫(kù)中辨識(shí)出正確的歌曲。該算法運(yùn)用分析音頻頻譜上的星狀圖來(lái)組合時(shí)間-頻率信息構(gòu)造哈希,從而可以將混合在一起的幾首歌都辨識(shí)出來(lái)。此外,針對(duì)不同的應(yīng)用,即使曲庫(kù)非常大,檢索速度也能達(dá)到毫秒級(jí)。

其核心簡(jiǎn)言之是,用戶將某段音頻中的一個(gè)片段上傳至 Shazam,Shazam 會(huì)首先提取指紋,然后查詢數(shù)據(jù)庫(kù),最后利用其精準(zhǔn)的識(shí)別算法返回歌名。指紋可以看做該音頻的哈希值(Hash),一個(gè)帶有時(shí)間屬性的數(shù)字集合。

2015 年,一位名叫 Christophe 的工程師寫(xiě)了篇萬(wàn)字長(zhǎng)文,完整分析了Shazam的原理是什么,并表示,在過(guò)去的三年時(shí)間里,他用了大概 200 個(gè)小時(shí)來(lái)理解信號(hào)處理的概念,其背后的數(shù)學(xué)原理,并制作了自己的Shazam原型。他甚至直言:“寫(xiě)這篇文章是因?yàn)榇饲皬臎](méi)有找到一篇真正理解 Shazam 的文章”。

那么,如何更快更好理解 Shazam 背后的算法奧秘呢?前不久,YouTube上一個(gè)專門(mén)普及工程知識(shí)的頻道 Real Engineering 上傳了一段 10 分鐘視頻,可幫助人們快速 Get 到相關(guān)知識(shí)點(diǎn)。

傳送門(mén):https://www.youtube.com/watch?v=kMNSAhsyiDg

相比起人類,計(jì)算機(jī)對(duì)音樂(lè)沒(méi)有直觀的理解,它只能將歌曲與其數(shù)據(jù)庫(kù)中的其他歌曲進(jìn)行對(duì)比匹配。為此,視頻中 Real Engineering 重點(diǎn)提及了兩個(gè)概念:“星狀圖”和“哈希函數(shù)”,并對(duì)基于“指紋”的搜索算法進(jìn)行了通俗化解釋。

例如,人類大腦可很容易區(qū)分鋼琴和吉他的音色,但對(duì)計(jì)算機(jī)來(lái)講,就需要一種能夠量化這些特征以便進(jìn)行識(shí)別的方法,即頻譜圖,一種聲音的視覺(jué)顯示。

在視頻中,研究者嘗試用一張三維圖來(lái)表示:x 軸代表時(shí)間,y 軸代表頻率,z 軸代表振幅/響度(通常用某種顏色表示)。

如此,計(jì)算機(jī)就可以通過(guò)這個(gè)三維圖來(lái)識(shí)別聲音并存儲(chǔ)數(shù)據(jù)。不過(guò),會(huì)有個(gè)問(wèn)題:頻譜圖中有大量這樣的數(shù)據(jù),而且數(shù)據(jù)越多,需要通過(guò)計(jì)算匹配的時(shí)間就越長(zhǎng)。

所以,減少計(jì)算時(shí)間的第一步就是減少分類歌曲的數(shù)據(jù)。

Shazam 采用的稱之為“指紋”的技術(shù),可將這些頻譜圖轉(zhuǎn)換成看起來(lái)像的“星狀圖”。

每顆星星代表特定時(shí)間最強(qiáng)的頻率。如此,不僅降低了頻譜圖的維度,還減少了圖表上數(shù)據(jù)點(diǎn)的數(shù)量。

然后,Shazam 數(shù)據(jù)庫(kù)中的每首單曲都以“指紋”的形式存儲(chǔ)起來(lái)。

當(dāng)用戶打開(kāi) Shazam 應(yīng)用時(shí),后臺(tái)將訪問(wèn)手機(jī)的麥克風(fēng),并創(chuàng)建一組接收到的聲波“指紋”。不過(guò),這種方式也有助于應(yīng)用過(guò)濾噪聲,因?yàn)樗粫?huì)創(chuàng)建突出頻率的數(shù)據(jù)點(diǎn)。

音頻創(chuàng)建完成,并將其發(fā)送到服務(wù)器。此時(shí),Shazam的識(shí)別過(guò)程正式開(kāi)始,即“快速組合哈?!保‵ast Combinatorial Hashing)。

論文鏈接:https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

Shazam 會(huì)將“指紋”進(jìn)行分類,并搜索在該音頻中的某個(gè)特定時(shí)間點(diǎn)里分別存在哪幾個(gè)音符,這也是哈希表的可搜索地址。

注:在計(jì)算機(jī)領(lǐng)域,哈希和哈希函數(shù)應(yīng)用十分廣泛。例如,在谷歌的搜索引擎算法中就應(yīng)用了哈希函數(shù),以確保文件可被下載。一句話解釋就是,任意長(zhǎng)度的輸入通過(guò)哈希函數(shù)變換成固定長(zhǎng)度的輸出,該輸出就是哈希值。

實(shí)踐中,輸入可以是一小段文字如密碼,也可以是像整部電影一樣的長(zhǎng)數(shù)據(jù)流。

為免枯燥乏味,視頻里還舉了個(gè)生動(dòng)的例子:在圖書(shū)館如何通過(guò)搜索書(shū)的標(biāo)題確定書(shū)的位置?

可以通過(guò)哈希函數(shù)來(lái)決定,書(shū)的標(biāo)題為輸入,書(shū)架的位置為輸出。在這個(gè)過(guò)程中,我們會(huì)遇到書(shū)籍不均勻分布、書(shū)目沖撞、以及如何快速找到所需書(shū)目的問(wèn)題。

例如,如果圖書(shū)館只有兩個(gè)架子,那么書(shū)目沖撞(一個(gè)書(shū)架上有相同標(biāo)題的書(shū))的問(wèn)題將十分突出;但如果圖書(shū)館有十億書(shū)架,那哈希函數(shù)得出的書(shū)目沖撞結(jié)果應(yīng)該會(huì)很小。

回到以上提到的案例,如果通過(guò)哈希函數(shù),選擇兩組頻率數(shù)據(jù),分別除以時(shí)間并作為輸入,輸出的數(shù)字介于 1 至 10 億之間。

首先,計(jì)算機(jī)將瀏覽歌曲數(shù)據(jù)庫(kù)并計(jì)算每個(gè)錨點(diǎn)(anchor point)的哈希;一首歌曲將包含多個(gè)錨點(diǎn),將有助于計(jì)算機(jī)對(duì)音頻片段按錨點(diǎn)、后面的以及之間的頻率進(jìn)行分類。

然后,對(duì)每個(gè)錨點(diǎn)按哈希進(jìn)行排列。

這些地址同樣以歌曲 ID 和時(shí)間戳進(jìn)行分類。

如此,便可以更快定位,并找到本來(lái)需要多個(gè)錨點(diǎn)才能找到的音樂(lè)。

以上只是大致介紹,想要了解 Shazam 聽(tīng)歌識(shí)曲背后的詳細(xì)原理,可以查看Christophe 寫(xiě)的萬(wàn)字長(zhǎng)文。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • APP
    APP
    +關(guān)注

    關(guān)注

    33

    文章

    1592

    瀏覽量

    76029
  • 數(shù)據(jù)庫(kù)
    +關(guān)注

    關(guān)注

    7

    文章

    4028

    瀏覽量

    68405
  • 音頻識(shí)別
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    7319

原文標(biāo)題:一個(gè)App賣(mài)了4億美元,這家聽(tīng)聲識(shí)曲公司為何得到Apple的青睞?

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    識(shí)智能與導(dǎo)遠(yuǎn)科技達(dá)成戰(zhàn)略合作

    近日,九識(shí)智能與導(dǎo)遠(yuǎn)科技正式達(dá)成戰(zhàn)略合作,導(dǎo)遠(yuǎn)科技通過(guò)多款軟硬件產(chǎn)品賦能九識(shí)智能低速無(wú)人車。
    的頭像 發(fā)表于 12-25 17:10 ?2607次閱讀

    【RA4M2-SENSOR】數(shù)字識(shí)讀及實(shí)現(xiàn)

    這里就介紹一種在RA4M2-SENSOR 開(kāi)發(fā)板上實(shí)現(xiàn)數(shù)字識(shí)讀的方法,其實(shí)現(xiàn)的思路就是在給定數(shù)據(jù)的情況下,通過(guò)相應(yīng)的功能函數(shù)來(lái)自動(dòng)提取各數(shù)據(jù)位的值及權(quán)重,進(jìn)而通過(guò)串口向語(yǔ)音模塊發(fā)送指令來(lái)實(shí)現(xiàn)數(shù)據(jù)到
    發(fā)表于 09-15 22:47

    時(shí)識(shí)科技與姬械機(jī)科技達(dá)成深度戰(zhàn)略合作

    近日,時(shí)識(shí)科技(SynSense)與姬械機(jī)科技(Maschine Robot Tech Group)宣布達(dá)成深度戰(zhàn)略合作,雙方立足于類腦智能技術(shù)體系的研發(fā)與工業(yè)安全行業(yè)的應(yīng)用,攜手推進(jìn)相關(guān)產(chǎn)業(yè)生態(tài)的建設(shè)與發(fā)展。
    的頭像 發(fā)表于 09-06 16:19 ?1156次閱讀

    請(qǐng)問(wèn)是否可以所有 GPIO 設(shè)置為從斷電或空閑模式喚醒系統(tǒng)?

    是否可以所有 GPIO 設(shè)置為從斷電或空閑模式喚醒系統(tǒng)?
    發(fā)表于 08-28 06:00

    是否可以所有 GPIO 設(shè)置為從斷電或空閑模式喚醒系統(tǒng)?

    是否可以所有 GPIO 設(shè)置為從斷電或空閑模式喚醒系統(tǒng)?
    發(fā)表于 08-25 06:55

    一維二維碼條碼識(shí)讀器的主要功能有哪些

    ?本文詳細(xì)介紹其核心功能。一、信息快速識(shí)別與解析一維二維碼條碼識(shí)讀器最基礎(chǔ)也最核心的功能,就是對(duì)一維碼和二維碼進(jìn)行快速識(shí)別與解析。無(wú)論是商品包裝上的條形碼,還是
    的頭像 發(fā)表于 08-01 15:59 ?1104次閱讀
    一維二維碼條碼<b class='flag-5'>識(shí)</b>讀器的主要<b class='flag-5'>功能</b>有哪些

    Aurix Development Studio 中是否允許在 SCR 端添加調(diào)試編譯器選項(xiàng)的功能?

    ELF 文件中的調(diào)試信息,其中沒(méi)有調(diào)試符號(hào),并且我無(wú)法調(diào)試 SCR 代碼。Aurix Development Studio 中是否允許在 SCR 端添加調(diào)試編譯器選項(xiàng)的功能?
    發(fā)表于 07-21 06:00

    是否可以客戶端控件與CYW920706WCDEVAL一起使用?

    是否可以客戶端控件與CYW920706WCDEVAL一起使用? 我想用它來(lái)發(fā)現(xiàn)藍(lán)牙 BR/EDR,然后將其與其他設(shè)備配對(duì)。 客戶端控制的下載鏈接或文檔嗎? 另外,你
    發(fā)表于 07-04 07:50

    CYW20829是否可以使用 BLE 長(zhǎng)距離(編碼 PHY)功能啟用 PAWR?

    是否可以使用 BLE 長(zhǎng)距離(編碼 PHY)功能啟用 PAWR?
    發(fā)表于 06-27 07:31

    是否可以AD9278的工作模式設(shè)為standby模式?

    standby模式時(shí),可以正常工作,至少在當(dāng)前常溫環(huán)境下,沒(méi)發(fā)現(xiàn)有什么異常,這是為什么?在手冊(cè)中看到在standby模式下,AD9278不應(yīng)該正常工作才對(duì),為什么實(shí)際使用時(shí),卻能正常工作,而且此時(shí)功耗確實(shí)低了很多?。?,在最終產(chǎn)品中,我是否
    發(fā)表于 06-10 08:29

    CYPD3177是否連接NonPD適配器源時(shí)通知電量不足的功能?

    CYPD3177是否連接NonPD適配器源時(shí)通知電量不足的功能? 例如,當(dāng)連接到具有 9V2A 請(qǐng)求的 NonPD 適配器(源連接器為 A 型等)時(shí),通知電量不足。 對(duì)于 PD 兼
    發(fā)表于 05-22 08:24

    是否可以CY7C65215A的端口1用作RS485,端口2用作RS232?

    我對(duì) CY7C65215A 兩個(gè)問(wèn)題。 (1)是否可以CY7C65215A的端口1用作RS485,端口2用作RS232? (2)我計(jì)劃
    發(fā)表于 05-06 12:56

    是否任何硬件功能可以獲取ADC的最大值?

    是否任何硬件功能可以獲取 ADC 的最大值
    發(fā)表于 04-21 07:54

    Ntag424使用Sun功能編寫(xiě)URL的卡片中的URL是否可以在每次讀取時(shí)更改?

    必須更改(類似于動(dòng)態(tài)值)實(shí)際上我幾個(gè)問(wèn)題,他們的答案解釋一切。我想根據(jù)場(chǎng)景提出一些問(wèn)題; 1- 我使用 Sun 功能編寫(xiě) URL 的卡片中的 URL 是否
    發(fā)表于 04-10 06:20

    是否可以智能插頭直接連接到充當(dāng)控制器的imx8mm?

    運(yùn)行具有物質(zhì)層的 yocto mickledore 圖像。 是否可以智能插頭直接連接到充當(dāng)控制器的 imx8mm?
    發(fā)表于 04-08 08:08