91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

小米AI實驗室聲學團隊 獲嬰兒啼哭聲識別的挑戰(zhàn)賽任務第一名

小米公司 ? 來源:小米公司 ? 作者:小米公司 ? 2020-11-13 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對嬰兒來說,啼哭聲是一種通訊的方式,一個非常有限、但類似成年人進行交流的方式。它也是一種生物報警器,向外界傳達著嬰兒生理和心理的需求。 基于啼哭聲聲波攜帶的信息,嬰兒的身體狀況才能被確定,疾病才能被檢測出來。因此,有效辨識啼哭聲,成功地將嬰兒啼哭聲“翻譯”成“成人語言”,讓成年人讀懂啼哭聲的含義,有重大的實際意義。 2020 iFLYTEK A.I.開發(fā)者大賽中,有一項關于嬰兒啼哭聲識別的挑戰(zhàn)賽任務。本次競賽總共吸引了678只隊伍參賽,分別來自國內(nèi)不同的公司和高校。最終小米AI實驗室聲學團隊以0.99123分的高分奪得第一名。

比賽的訓練數(shù)據(jù)集包含了awake(蘇醒)、diaper(換尿布)、hug(要抱抱)、hungry(饑餓)、sleepy(困乏)和uncomfortable(不舒服)六類哭聲,并且人工添加了來自Noisex-92標準數(shù)據(jù)庫的噪聲。 這項任務旨在判別嬰兒啼哭聲所傳遞的信息,需要分別在簡單噪聲環(huán)境和復雜噪聲環(huán)境下對嬰兒啼哭進行識別,判斷容易引起混淆的啼哭聲,分析各類啼哭聲的明顯特征及簡單直接的判別方式。 初賽訓練數(shù)據(jù)包含918條音頻,測試集包含228條。復賽賽方提供了添加不同噪聲的30294條訓練數(shù)據(jù),需對7524條測試音頻進行識別。

嬰兒啼哭比賽背后的技術原理 小米AI實驗室聲學團隊借鑒說話人確認的方法,訓練網(wǎng)絡使得vector的余弦距在離類間間距拉大而類內(nèi)間距減小。 在模型的訓練過程中,首先使用VAD算法對嬰兒啼哭音頻中的靜音部分進行剔除。去除靜音后隨機選取160幀,不足160幀的語音采用Cycle Padding方式,利用中間特征進行循環(huán)填充,相比與傳統(tǒng)的補0或用尾部填充的方式,特征更加豐富。 模型采用3 層 LSTM+256Dense 層,每層節(jié)點為 512。初賽訓練集中的所有純凈語音均看作 enroll 語料,所有訓練集中每個類別的 embedding 由該類別中的所有語音過模型求整體平均得到。測試集中的每條語音過模型后得到的 embedding與 enroll 中的每類 embedding 求余弦距離,分數(shù)對應最高的類別為預測類別。 訓練策略為:首先迭代第一個 5000 次,學習率設置為 1e-3,第二次加載預訓練模型(mAp 分數(shù)高的),調(diào)整學習率,再迭代 5000 次,最終交叉加載預訓練模型在不同的 part 上訓練。

模型的選擇和推理過程分為以下4個步驟:

測試集統(tǒng)計分析:首先統(tǒng)計測試集語音的信噪比、時長、靜音占比及語音相似度。通過對比分析,對相似數(shù)據(jù)進行歸類,選取最高信噪比數(shù)據(jù)進行預測。

模型選擇:在 5 個訓練集上分別擇優(yōu)選取 2 個模型作為備用。

推理:計算測試語料經(jīng)模型推理得到的vector 與每類哭聲embedding間的余弦距離,取分數(shù)最高的對應類為備選結果。

投票:根據(jù)單個模型預測的結果投票得到最終結果。

聲學感知技術未來將如何發(fā)展? 當前主流的聲學感知技術使用的是強監(jiān)督的深度學習方法,隨著數(shù)據(jù)量的增大和技術的發(fā)展,未來監(jiān)督學習的方法將逐漸過度為半監(jiān)督甚至無監(jiān)督學習。其中半監(jiān)督學習正是當前聲音事件檢測技術的研究重點。 不僅如此,深度學習的網(wǎng)絡模型也從人工專家設計逐漸轉(zhuǎn)變?yōu)樽詣铀阉骷軜?,而元學習等小樣本學習方法也開始逐步應用在聲學感知方向。 嬰兒哭聲分析只是聲學感知技術的其中一個應用。當前的聲音場景分類和聲音事件檢測技術已能在設備端上實時分析當前用戶所處的場景和識別出各式各樣的聲音,如貓狗寵物叫聲、警報聲、汽車鳴笛聲等。

不僅如此,聲學感知技術還能分析出一些連人耳也無法聽出的聲音,如本次競賽的嬰兒啼哭意圖,以及應用在工業(yè)上,通過分析機器發(fā)出的聲音來判斷機器保養(yǎng)狀態(tài)的聲學分析技術。聲音作為一種最常見的傳感媒介之一,聲音感知技術在智能家庭、自動駕駛、智能工業(yè)化等領域都有廣泛的應用場景。 手機xAIoT小米AI全力打造小米智能家居 隨著小米最新的手機xAIoT戰(zhàn)略,智能家居環(huán)境是手機設備與全部智能家居設備聯(lián)動最全面的使用場景。手機、TWS耳機和越來越多的智能家居設備比如智能音箱、智能電視、米家IoT設備等都具有麥克風拾音功能。 我們獲得了足夠多場景下的聲音數(shù)據(jù)時,構建基于設備端的場景感知、事件感知、人體感知和空間感知能力成為了可能。 依賴于全球第一的AIoT平臺,小米可以實現(xiàn)對家中每一個角落無處不在的感知能力,并完成手機端事件提醒與多事件時間線回溯,聲學作為智能感知的一種手段,在未來與UWB技術、視覺圖像技術相結合,相互取長補短將成為主流的趨勢。

責任編輯:xj

原文標題:小米AI實驗室聲學團隊榮獲2020 iFLYTEK A.I.開發(fā)者大賽嬰兒啼哭聲識別挑戰(zhàn)賽冠軍

文章出處:【微信公眾號:小米公司】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39844

    瀏覽量

    301505
  • 智能語音
    +關注

    關注

    11

    文章

    826

    瀏覽量

    50278
  • 小米
    +關注

    關注

    70

    文章

    14534

    瀏覽量

    152207

原文標題:小米AI實驗室聲學團隊榮獲2020 iFLYTEK A.I.開發(fā)者大賽嬰兒啼哭聲識別挑戰(zhàn)賽冠軍

文章出處:【微信號:xiaomigongsi0406,微信公眾號:小米公司】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    思必馳斬獲Interspeech 2026音頻推理挑戰(zhàn)賽智能體賽道亞軍

    近日,國際語音與語言處理領域頂級賽事Interspeech 2026音頻推理挑戰(zhàn)賽結果正式揭曉。在這場首次將評估焦點從“答案正確性”轉(zhuǎn)向“推理過程質(zhì)量”的變革性賽事中,思必馳-上海交通大學聯(lián)合實驗室團隊憑借創(chuàng)新的多智能體協(xié)同方案
    的頭像 發(fā)表于 02-28 14:13 ?567次閱讀

    禮來與NVIDIA宣布成立AI聯(lián)合創(chuàng)新實驗室以應對藥物研發(fā)挑戰(zhàn)

    NVIDIA 與禮來公司在今日共同宣布,將合作成立家開創(chuàng)性的 AI 聯(lián)合創(chuàng)新實驗室,致力于運用 AI 技術解決制藥行業(yè)長期面臨的諸多挑戰(zhàn)
    的頭像 發(fā)表于 01-20 09:44 ?507次閱讀

    “芯”年來襲 | 瑞薩邊緣AI線上技術月暨挑戰(zhàn)賽

    自1月7日起,瑞薩邊緣AI技術月活動將每周開啟場在線技術交流,涵蓋MCU/MPU產(chǎn)品、應用案例及開發(fā)實踐,并同步開啟瑞薩AI評測挑戰(zhàn)賽,借助教程資源及每周在線講解和答疑,幫助嵌入式開
    的頭像 發(fā)表于 12-25 10:21 ?2243次閱讀
    “芯”年來襲 | 瑞薩邊緣<b class='flag-5'>AI</b>線上技術月暨<b class='flag-5'>挑戰(zhàn)賽</b>

    隼眼科技獲得第六屆綜合交通創(chuàng)新創(chuàng)業(yè)大賽總決賽第一名

    由中交集團舉辦的第六屆綜合交通創(chuàng)新創(chuàng)業(yè)大賽總決賽于12月16日落下帷幕,隼眼科技參賽的“基于92-94GHz毫米波雷達的全天候感知系統(tǒng)”獲得了第一名的好成績。
    的頭像 發(fā)表于 12-18 17:07 ?651次閱讀

    告別誤判!WTK6900HD高抗噪哭聲識別芯片,重塑智能嬰童監(jiān)護新標準

    當90%的精準識別率遇上1秒快速響應,嬰兒哭聲檢測技術正在經(jīng)歷從“聽見響動”到“聽懂需求”的根本性變革。深夜的臥室里,智能監(jiān)護設備因幾十米外的汽車鳴笛而誤報警,而嬰兒床上真實的
    的頭像 發(fā)表于 12-10 09:22 ?758次閱讀
    告別誤判!WTK6900HD高抗噪<b class='flag-5'>哭聲</b><b class='flag-5'>識別</b>芯片,重塑智能嬰童監(jiān)護新標準

    傳音TEX AI團隊斬獲ICCV 2025大型視頻目標分割挑戰(zhàn)賽雙料亞軍

    近日,國際計算機視覺大會(ICCV 2025)舉辦了第七屆大型視頻目標分割挑戰(zhàn)賽(LSVOS Challenge),傳音TEX AI團隊憑借自主研發(fā)的創(chuàng)新技術方案,在復雜視頻目標分割和語言指引視頻
    的頭像 發(fā)表于 10-31 09:42 ?567次閱讀
    傳音TEX <b class='flag-5'>AI</b><b class='flag-5'>團隊</b>斬獲ICCV 2025大型視頻目標分割<b class='flag-5'>挑戰(zhàn)賽</b>雙料亞軍

    WTK6900HD哭聲識別產(chǎn)品在中嬰兒產(chǎn)品中的應用

    本文將深入介紹唯創(chuàng)知音推出的WTK6900HD語音識別芯片如何在嬰兒哭聲識別領域掀起場技術革命。
    的頭像 發(fā)表于 10-10 16:50 ?610次閱讀
    WTK6900HD<b class='flag-5'>哭聲</b><b class='flag-5'>識別</b>產(chǎn)品在中<b class='flag-5'>嬰兒</b>產(chǎn)品中的應用

    東風本田CR-V榮獲2025合資SUV質(zhì)量體驗第一名

    近日,2025年中國汽車產(chǎn)品質(zhì)量表現(xiàn)研究(AQR)結果發(fā)布暨頒獎典禮圓滿落幕。東風本田CR-V憑借卓越的質(zhì)量表現(xiàn),榮獲“合資SUV質(zhì)量體驗第一名”的桂冠,這權威獎項不僅是對東風本田CR-V的肯定,更是對品牌在質(zhì)量、品質(zhì)等方面多年堅守“長期主義”的最佳褒獎。
    的頭像 發(fā)表于 10-09 09:56 ?605次閱讀

    地平線H-RDT模型斬獲CVPR 2025大冠軍

    近日,在計算機視覺與模式識別領域頂級會議CVPR 2025舉辦的RoboTwin雙臂機器人競賽中,地平線機器人實驗室與清華大學計算機系朱軍團隊聯(lián)合提出的H-RDT憑強大性能和領先成功率,
    的頭像 發(fā)表于 08-21 10:02 ?704次閱讀
    地平線H-RDT模型斬獲CVPR 2025大<b class='flag-5'>賽</b>冠軍

    尼特獲得DEKRA德凱CTF1實驗室認證

    近日,寧波尼特照明電器有限公司正式通過DEKRA德凱嚴格審核,成功獲得CTF1實驗室認可資質(zhì)。本次頒證儀式由DEKRA德凱上海照明事業(yè)部總監(jiān)厲梁與寧波尼特照明電器有限公司實驗室負責
    的頭像 發(fā)表于 08-07 14:54 ?1063次閱讀

    軟通動力斬獲2024年中國IT服務市場份額第一名

    近日,迪顧問發(fā)布《2024-2025年中國信息技術服務市場研究年度報告》。軟通動力憑借在智能化轉(zhuǎn)型浪潮中的卓越表現(xiàn),以領先的數(shù)智化能力持續(xù)領跑中國IT服務市場,不僅斬獲2024年市場份額第一名,更在IT咨詢、IT運維等核心領域鞏固優(yōu)勢,綜合競爭力持續(xù)提升。
    的頭像 發(fā)表于 08-01 17:53 ?1940次閱讀

    潤和軟件穩(wěn)居數(shù)字業(yè)務類解決方案市場第一名

    ”)憑借自身卓越的技術實力和創(chuàng)新能力,連續(xù)五年穩(wěn)居數(shù)字業(yè)務類解決方案市場第一名;在細分領域:數(shù)字信貸系統(tǒng)解決方案子市場持續(xù)保持第一名,數(shù)字銀行解決方案子市場躍升至第一名。同時,其在開放銀行、交易銀行、智能營銷、智能風控、數(shù)據(jù)智能
    的頭像 發(fā)表于 07-14 17:36 ?1376次閱讀

    傳音多媒體團隊CVPR NTIRE 2025兩項挑戰(zhàn)賽冠亞軍,推動視頻畫質(zhì)升級

    (NTIRE2025EfficientSuper-ResolutionChallenge)第一名,短視頻UGC圖像超分辨率挑戰(zhàn)賽(NTIRE2025Short-formUGCImageSuper-Reso
    的頭像 發(fā)表于 06-24 17:03 ?919次閱讀
    傳音多媒體<b class='flag-5'>團隊</b>攬<b class='flag-5'>獲</b>CVPR NTIRE 2025兩項<b class='flag-5'>挑戰(zhàn)賽</b>冠亞軍,推動視頻畫質(zhì)升級

    傳音多媒體團隊CVPR NTIRE 2025兩項挑戰(zhàn)賽冠亞軍

    Efficient Super-Resolution Challenge)第一名,短視頻UGC圖像超分辨率挑戰(zhàn)賽(NTIRE 2025 Short-form UGC Image Super-Resolution
    的頭像 發(fā)表于 06-24 16:08 ?1638次閱讀
    傳音多媒體<b class='flag-5'>團隊</b>攬<b class='flag-5'>獲</b>CVPR NTIRE 2025兩項<b class='flag-5'>挑戰(zhàn)賽</b>冠亞軍

    華為榮登GlobalData運營商基礎設施管理服務排名報告Leader象限第一名

    象限第一名。 報告對通信服務商從商業(yè)模式、解決方案、網(wǎng)絡設計與優(yōu)化、網(wǎng)絡轉(zhuǎn)型能力、服務規(guī)模、和業(yè)務敏捷性六個維度進行了全面評估,華為綜合得分第一。這印證了華為在對全球運營商客戶提供領先服務解決方案、網(wǎng)絡極致性能和數(shù)智化轉(zhuǎn)型等方面做出了卓越
    的頭像 發(fā)表于 05-22 18:43 ?1092次閱讀
    華為榮登GlobalData運營商基礎設施管理服務排名報告Leader象限<b class='flag-5'>第一名</b>