以智能音箱為主的智能硬件持續(xù)增長交互模式也從單模態(tài)向多模態(tài)轉(zhuǎn)變

近年來，以智能音箱為代表的智能硬件市場持續(xù)增長，交互模式從單模態(tài)向多模態(tài)轉(zhuǎn)變的趨勢也日益顯著。帶屏幕的智能硬件能夠更好滿足聽覺和視覺的交互，也是人工智能和硬件廠商發(fā)力的方向。

12月10日，有消息指出，騰訊將在下周推出騰訊叮當(dāng)品牌的首款自研硬件產(chǎn)品“騰訊叮當(dāng)智能屏”。這款產(chǎn)品有屏、有音箱、還有智能AI助手，是我們熟悉的帶屏智能音箱。

另外，在這一次曝光中，還有騰訊叮當(dāng)這款帶屏設(shè)備的上市時間和產(chǎn)品價格消息：12月18日正式發(fā)布、價格不到千元。

這并不是什么新消息。在供應(yīng)鏈云集的深圳，騰訊叮當(dāng)一直在打磨一款帶屏的智能設(shè)備，早已有小道消息傳出。

自從2017年4月份亮相以來，騰訊叮當(dāng)一直都采用聯(lián)合第三方合作伙伴的方式來打造產(chǎn)品，以彌補(bǔ)自身在硬件方面的弱勢。而這一款“騰訊叮當(dāng)智能屏”，未來有可能開啟騰訊叮當(dāng)在自研硬件領(lǐng)域的布局，并成為騰訊叮當(dāng)將打開智能家居的入口級產(chǎn)品。

從已曝光的產(chǎn)品外觀可以看到它配備一塊大尺寸顯示屏，在內(nèi)容服務(wù)方面應(yīng)該會承載騰訊視頻、QQ音樂等豐富的影音娛樂資源，在顯示效果和音質(zhì)方面也值得期待。如果屏幕上帶有攝像頭，或?qū)⒕邆湟曨l功能。

此外，從圖片來看，騰訊叮當(dāng)智能屏沒有接線，可能會有內(nèi)置電池。如果沒有了線纜的束縛，則意味著它可以隨意擺放在房間的每個角落，使用會變得更加靈活。

在AI交互方面，這款產(chǎn)品預(yù)計會搭載騰訊叮當(dāng)AI語音助手。從騰訊叮當(dāng)之前落地的產(chǎn)品來看，用戶可以說出“叮當(dāng)叮當(dāng)”來喚醒語音助手，實現(xiàn)音樂／視頻播放、查詢天氣、熱點新聞等等。此次騰訊叮當(dāng)智能屏通過與AI技術(shù)和資源的深度整合，定會打造出全新的智能影音娛樂系統(tǒng)，相信能夠帶給用戶更好的使用體驗。

不過，話又說話來了，這年頭，無論是在行業(yè)市場，還是在消費(fèi)市場，帶屏智能音箱都已經(jīng)不是什么稀罕物件。姍姍來遲的騰訊叮當(dāng)智能屏，除了慣用的內(nèi)容生態(tài)優(yōu)勢外，會有什么硬實力來應(yīng)對同類產(chǎn)品的競爭呢？

閱讀全文

AI(298894) AI(298894)
騰訊(50805) 騰訊(50805)
智能音箱(80632) 智能音箱(80632)

愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

熟悉愛芯通元NPU的網(wǎng)友很清楚，從去年開始我們在端側(cè)多模態(tài)大模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的多模態(tài)大模MiniCPM V 2.0，上海人工智能實驗室的書生多模態(tài)大模型

2025-04-21 10:56:46

2690

炬芯科技 2019 多模態(tài)交互技術(shù)開發(fā)者大會：AI多模態(tài)交互如何助力教育

賦能、語音賦能到視覺算法賦能、IP加速等多角度，共同探討多模態(tài)交互在教育上的落地情況。多模態(tài)交互技術(shù)賦能新智能硬件喜馬拉雅今年的用戶突破6億，擁有7000萬以上的主播，其中100萬以上是認(rèn)證主播，在整個音頻行業(yè)的覆蓋率73%，每個用戶平均每天的播放時長超過

2019-12-24 11:46:43

14450

千億參數(shù)多模態(tài)大模型，“紫東太初”規(guī)模化應(yīng)用加速

、文本、圖像等單模態(tài)大模型研究和應(yīng)用的基礎(chǔ)上，向多模態(tài)大模型攻關(guān)，并于2021年7月正式發(fā)布了全球首個千億參數(shù)多模態(tài)大模型紫東太初。 ? 2023年6月16日，中國科學(xué)院自動化研究所和武漢人工智能研究院發(fā)布紫東太初2.0。2023年8月，中科院

2023-12-08 00:09:00

3530

語音識別技術(shù)最新進(jìn)展：視聽融合的多模態(tài)交互成為主要演進(jìn)方向

電子發(fā)燒友網(wǎng)報道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項重要創(chuàng)新。隨著語音識別技術(shù)的發(fā)展，采用

2023-12-28 09:06:45

6608

多模態(tài)感知+豆包大模型！家居端側(cè)智能升級

電子發(fā)燒友網(wǎng)報道（文/李彎彎）日前，在火山引擎2025春季FORCE原動力大會上，星宸科技股份有限公司董事副總經(jīng)理陳立敬談到，在人工智能技術(shù)飛速發(fā)展的時代，多模態(tài)感知與大模型的融合成為推動各行業(yè)變革

2025-06-21 00:06:00

6835

大模型驅(qū)動下的人機(jī)交互革命，“超擬真人互動”?讓玩具讀懂你的情緒

電子發(fā)燒友網(wǎng)報道（文/黃山明）日前，在大灣區(qū)AI玩具生態(tài)大會上，百度智能云正式發(fā)布基于“超擬真人互動”理念的智能硬件多模態(tài)交互解決方案。該方案通過大模型與多模態(tài)技術(shù)的深度融合，從技術(shù)架構(gòu)到場景落地

2025-10-31 09:21:04

6276

2018年Q2全球智能音箱出貨量為1680萬臺同比增長187%

%和 12.2%。　　智能音箱銷量正在快速增長，這一點并不令人感到意外。這肯定也與NPD公布的最新數(shù)據(jù) 相符。但是，另一家市場研究機(jī)構(gòu)Canalys的最新報告，讓我們對全球智能音箱市場格局有更深

2018-08-30 09:25:43

智能音箱+智能家電整體解決方案

）認(rèn)為人機(jī)交互的新方式，語音交互在未來控制端是大勢所趨。未來的智能音箱不一定體現(xiàn)在產(chǎn)品形式上面，但一定能以產(chǎn)品的形式把智能交互和服務(wù)的產(chǎn)品密切捆綁在一起。歸根結(jié)底，智能音箱的落點不能脫離了“音箱

2017-06-20 11:14:19

智能音箱哪家強(qiáng)？選購智能音箱還需謹(jǐn)慎！

式增長，智能音箱已經(jīng)成為當(dāng)下最熱門的硬件產(chǎn)品之一。眼看一年一度的雙十一年終大促來臨，巨頭們大戰(zhàn)持續(xù)升溫，頻發(fā)補(bǔ)貼打出歷史最低價，消費(fèi)者也開始著手查看各種評測。去年的雙十一上，僅阿里家的智能音箱就售出

2018-11-17 09:26:47

智能音箱大戰(zhàn)：618為何突然啞火？

相對乏力。根據(jù)智東西產(chǎn)業(yè)鏈消息，單單是亞馬遜去年Q4季度智能音箱的出貨量就達(dá)到1500萬臺，不但智能音箱的爆發(fā)式增長在“黑色星期五”得到體現(xiàn)，在圣誕季中也持續(xù)增長。而在國內(nèi)的618則并沒有看到這一

2018-06-23 09:28:03

智能音箱成智能家居入口，最新國外智能語音音箱大盤點

“David&Sheiyl”的智能音箱新品。　　業(yè)內(nèi)人士表示，音箱本身就具備發(fā)聲功能，再為它配置麥克風(fēng)、智能語音識別系統(tǒng)后，就可以實現(xiàn)一定的語音人機(jī)交互，讓它在為你“放歌”的基礎(chǔ)上，也能“聽你

2018-12-01 09:30:52

智能音箱混戰(zhàn) 遠(yuǎn)場語音交互只是開始

　　導(dǎo)讀：遠(yuǎn)場語音交互開始是智能音響，但是將來絕對不僅僅是智能音響，技術(shù)還會擴(kuò)展到很多其他的產(chǎn)品。　　7月5日，阿里推出了自己的首款消費(fèi)級AI產(chǎn)品天貓精靈X1，同日百度也宣布了DuerOS開放

2017-07-17 09:37:59

智能音箱用戶年復(fù)合增長47.9% 是什么推動智能音箱的普及？

計數(shù)器或心臟監(jiān)視器。eMarketer表示:“新數(shù)據(jù)顯示，從2017年到2020年之間，我們預(yù)計美國智能音箱用戶數(shù)量將顯著增長。” [img][/img] 　　2017年到2020年之間美國智能音箱

2018-06-05 09:26:15

智能音箱的決定性一年，當(dāng)智能音箱跌破百元

擺放的各種智能硬件也成為了企業(yè)們將用戶納入自己生態(tài)閉環(huán)中的重要一部分，而智能音箱正是目前絕大多數(shù)企業(yè)打造的智能家庭生態(tài)入口。　　與此同時，無論是傳統(tǒng)家電巨頭還是小米等互聯(lián)網(wǎng)生態(tài)鏈企業(yè)，都開始發(fā)力智能

2018-05-29 09:28:36

智能音箱的實際作用有哪些？如何在家庭中使用智能音箱？

智能音箱的實際作用有哪些？如何在家庭中使用智能音箱？智能音箱也可以從具備網(wǎng)絡(luò)或Bluetooth連接設(shè)備搜索并播放音頻內(nèi)容嗎？

2021-06-17 08:37:02

智能音箱的血海江湖哪家最終只會是“陪跑”？

，這樣的交互使用讓生活更加智能化，因此，智能音箱可發(fā)揮的效能也不可想象。　　到現(xiàn)在，各大巨頭企圖通過智能音箱切入并試圖占據(jù)智能家居的控制中心，盡早搶占這一大入口。從去年雙十一大戰(zhàn)之后，國內(nèi)的智能音箱

2018-04-21 09:46:25

智能音箱還能走多遠(yuǎn) 智能交互還未發(fā)展成熟

的雞肋。　　不太樂觀的是，語音交互的成熟度有被高估的可能，蘋果、微軟、阿里等后續(xù)發(fā)布的幾款智能音箱在功能上并沒有跳出亞馬遜Echo在2014年畫下的圈子，將近三年的時間內(nèi)，軟件和硬件方面均未出現(xiàn)長足

2017-07-11 09:32:17

智能音箱遇上瓶頸有待突破改善

雙方提供最完美的解決方案；專注于為雙方搭建溝通的橋梁?！　』ヂ?lián)網(wǎng)巨頭眼中，智能音箱被定義為是繼PC電腦圖形化系統(tǒng)+鍵鼠外設(shè)交互方式、智能手機(jī)+觸屏操作交互方式之后的新形態(tài)交互方式，是后互聯(lián)網(wǎng)時代的下一個

2018-11-20 15:02:45

模態(tài)窗口的設(shè)置問題

Labview中，一個窗口如果設(shè)置為模態(tài)窗口，則打開后，點擊其他窗口應(yīng)該是沒有作用的。我設(shè)置的幾個子VI為模態(tài)窗口，效果都沒有問題。但有一個子VI，設(shè)置為模態(tài)窗口，打開后，點擊其他窗口的按鈕，雖然

2013-11-28 21:56:55

LMS Virtual Lab 流固模態(tài)分析

LMS Virtual Lab 流固模態(tài)分析的主要步驟：1、設(shè)置材料、屬性、約束條件，進(jìn)行結(jié)構(gòu)有限元模態(tài)分析。注意：模態(tài)計算的頻率范圍不要太小，否則可能計算錯誤！2、對流體進(jìn)行模態(tài)分析3、建立結(jié)構(gòu)網(wǎng)格到流體網(wǎng)格的映射，再利用結(jié)構(gòu)模態(tài)和流體模態(tài)進(jìn)行流固耦合模態(tài)分析

2019-05-29 06:59:58

OpenHarmony實戰(zhàn)開發(fā)-如何實現(xiàn)模態(tài)轉(zhuǎn)場

狀態(tài)變量改變調(diào)起模態(tài)界面。同時，也可以通過if范式，通過新增/刪除組件實現(xiàn)模態(tài)轉(zhuǎn)場效果。完整示例和代碼如下。 @Entry @Component struct ModalTransitionWithIf

2024-04-28 14:47:21

labview 模態(tài)分析

用labview進(jìn)行模態(tài)分析，有很多問題，望高手指點一二力錘激勵信號+加速度傳感器信號，請問下，labview什么控件可以計算系統(tǒng)的模態(tài)還是說僅僅兩路信號是分析不了模態(tài)的。

2016-06-24 11:50:49

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗】2.具身智能機(jī)器人大模型

中取得了令人矚目的效果。閱讀感悟從傳統(tǒng)的手動編程到借助大模型實現(xiàn)智能化、自主化，從單一模態(tài)的交互到多模態(tài)信息的深度融合，再到擴(kuò)散模型的應(yīng)用，機(jī)器人控制技術(shù)正在以驚人的速度進(jìn)化。這不僅讓機(jī)器人在工業(yè)

2024-12-29 23:04:07

京東叮咚智能音箱魏強(qiáng)：目前智能音箱行業(yè)已然進(jìn)入洗牌期

形態(tài)多樣化的體驗時代，也就是2.0時代。　　魏強(qiáng)稱，在智能音箱2.0時代，用戶會成為核心，憑借不同產(chǎn)品形態(tài)和全面推進(jìn)深度學(xué)習(xí)，智能音箱將具備多模態(tài)的交互方式，并更加注重個性化技術(shù)和情感交互

2018-05-15 09:25:36

人工智能醫(yī)生未來或上線，人工智能醫(yī)療市場規(guī)模持續(xù)增長

+醫(yī)療市場規(guī)模持續(xù)增長 　　由廣州市婦女兒童醫(yī)療中心教授夏慧敏、加州大學(xué)圣地亞哥分校教授張康等專家領(lǐng)銜的醫(yī)療數(shù)據(jù)智能化應(yīng)用團(tuán)隊，聯(lián)合人工智能研究和轉(zhuǎn)化機(jī)構(gòu)研發(fā)出“輔診熊”人工智能診斷平臺，通過自動

2019-02-24 09:29:57

全球智能音箱保有量有望突破2億臺中國市場增長最快

：“本地廠商看好中國的智能音箱市場，他們今年的目標(biāo)是通過向家庭銷售更多設(shè)備，繼續(xù)提高其設(shè)備保有量。”詹森·羅同時又指出：“如今硬件差異化正變得越來越困難，消費(fèi)者對智能音箱和智能助手的期望也越來越高

2019-04-18 09:24:35

國美GOMEPOD智能音箱發(fā)布：支持免提通話內(nèi)置電池可用室外

　　導(dǎo)讀：國美GOMEPOD智能音箱搭載了科大訊飛先進(jìn)的語音識別AI技術(shù)，可以通過語音交互實現(xiàn)全屋多設(shè)備間的連接，是國內(nèi)首款支持免提通話的智能音箱。　　11月29日消息，以“智美家.生活

2018-11-30 09:26:17

巨頭們都要做智能音箱，背后的邏輯是什么？

恰恰是國內(nèi)廠商的短板所在。畢竟，即便在國內(nèi)市場echo缺席的情況，在智能音箱這個市場，所有巨頭玩了兩年的全國量加起來還沒有500萬臺。而GFK預(yù)計，2018年中國智能音箱的市場規(guī)模將持續(xù)增長，但總量也

2018-05-09 09:31:08

平價路線的智能音箱科技巨頭如何過招？

了這一點，百度為何在智能音箱上砸以重金，原因就不難理解。　　智能音箱只是開始，百度們意在AI入口　　不管是亞馬遜、谷歌還是百度、阿里，都不是所謂的硬件公司，和蘋果、小米有著天壤之別，這一特殊背景也

2018-08-09 09:27:11

德州儀器怎么提升智能音箱的創(chuàng)新設(shè)計？

智能音箱行業(yè)的競爭愈發(fā)激烈，各大制造商都在爭相開發(fā)功能更強(qiáng)大、使用更方便的產(chǎn)品。當(dāng)今的智能音箱擁有語音交互、人工智能、智能家居控制及多媒體播放等豐富的功能。要在競爭中占據(jù)先機(jī)，智能音箱的設(shè)計必須在總體系統(tǒng)成本、電池續(xù)航能力、熱效應(yīng)、回聲消除和音質(zhì)方面具備優(yōu)勢。

2019-08-07 06:42:07

松靈新品丨全球首款多模態(tài)?ROS開發(fā)平臺LIMO來了，將聯(lián)合古月居打造精品課程精選資料分享

。為探索多場景交互學(xué)習(xí)的可行方案，領(lǐng)先的移動機(jī)器人底盤和軟硬件系統(tǒng)提供商松靈機(jī)器人，借助多年的機(jī)器人硬件結(jié)構(gòu)創(chuàng)新經(jīng)驗和軟件算法開發(fā)優(yōu)勢，為科研教育用戶開創(chuàng)了全球首款集四種運(yùn)動模態(tài)和高性能傳感器系統(tǒng)于

2021-08-30 08:39:33

簡單的模型進(jìn)行流固耦合的模態(tài)分析

單獨導(dǎo)出提交計算即可。詳細(xì)的求解過程與“白車身自由模態(tài)分析”相同，點擊超鏈接回顧。下面直接給出聲腔與結(jié)構(gòu)各自的模態(tài)計算結(jié)果，由于分析的結(jié)構(gòu)幾何形狀具有對稱性，計算結(jié)果也同理具有對稱性，所以你會發(fā)

2020-07-07 17:15:39

米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

通過硬件算力優(yōu)化與軟件棧協(xié)同，將視覺編碼、語言推理、對話管理三大核心能力封裝為可落地的工程方案，而本文將聚焦其多輪對話的部署全流程，拆解從模型加載到交互推理的每一個關(guān)鍵環(huán)節(jié)。 RK3576 多輪對

2025-09-05 17:25:10

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

豐富外設(shè)配件配套多模態(tài)應(yīng)用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應(yīng)用板載 DAPLINK 調(diào)試器，外接一條USB 線即可實現(xiàn)燒錄、調(diào)試、串口日志查看板載網(wǎng)絡(luò)模組，支持開發(fā)聯(lián)網(wǎng)類

2024-06-18 17:33:19

航空電子設(shè)備PCB組件的實驗模態(tài)分析

就是通過求解系統(tǒng)的特征方程，一般多自由度系統(tǒng)的特征方程可以成式（1）所示的形式，來得到系統(tǒng)的特征值和特征向量，亦即振動系統(tǒng)固有頻率和振型?！　∈街校琜M]－系統(tǒng)的質(zhì)量矩陣，有限元模態(tài)分析中由單元質(zhì)量矩陣

2018-09-13 16:40:12

蘋果智能音箱HomePod開售：智能音箱卻不智能

中國市場。　　多次跳票的HomePod能否被國內(nèi)大眾接受，還尤未可知。但從定價上來看，與國內(nèi)現(xiàn)有的智能音箱相比，蘋果并不占據(jù)優(yōu)勢?！　?010年，蘋果公司以2億美元收購Siri公司，隨后與全球最大的語音

2019-01-25 09:25:52

集WIFI、藍(lán)牙、語音控制的4.3寸串口屏應(yīng)用于智能音箱

聯(lián)網(wǎng)時代。在中國智能音箱競爭格局逐漸明朗之時，廠商不斷探索著新的產(chǎn)品形態(tài)，帶屏音箱成為新的競爭熱點。從消費(fèi)者的角度來說，智能音箱增加屏幕，不僅讓人機(jī)交互更生動、更加可視化，在另一方面也大大拓寬了智能音箱

2022-10-12 09:59:33

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

2016-05-17 17:47:59

體驗MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869發(fā)布于 2025-01-20 13:40:48

多文化場景下的多模態(tài)情感識別

自動情感識別是一個非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價值．本文探討了在多文化場景下的多模態(tài)情感識別問題．我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制特征和基于深度

2017-12-18 14:47:31

基于超圖的多模態(tài)關(guān)聯(lián)特征處理方法

傳統(tǒng)的模式識別方法認(rèn)為特征是相互獨立的，容易忽略多模態(tài)特征之間多元的關(guān)聯(lián)性，從而造成識別的誤差。為此，基于超圖模型，提出一種新的特征整合方法。定義共享熵的計算方法用以表示多個特征之間的關(guān)聯(lián)程度，以

2018-03-07 11:01:41

小米手機(jī)和智能硬件如何持續(xù)增長？

全球手機(jī)銷量下滑 “快手”小米力保增速 21世紀(jì)經(jīng)濟(jì)報道倪雨晴廣州報道小米在海外市場上，手機(jī)和智能硬件會繼續(xù)增長；而中國市場手機(jī)增長不明顯，但是IOT智能家居有增量。處于上升期的小米在最佳

2018-05-05 01:09:00

4155

騰訊推出首款自研硬件產(chǎn)品“騰訊叮當(dāng)智能屏”

近年來，以智能音箱為代表的智能硬件市場持續(xù)增長，交互模式從單模態(tài)向多模態(tài)轉(zhuǎn)變的趨勢也日益顯著。帶屏幕的智能硬件能夠更好滿足聽覺和視覺的交互，也是人工智能和硬件廠商發(fā)力的方向。

2018-12-16 11:55:00

1986

有屏交互成為智能音箱市場新的爆發(fā)點

現(xiàn)如今，音箱已經(jīng)不僅是播放音樂的載體，在AI技術(shù)的加持下，正向智能化邁進(jìn)，并成為智能家居生態(tài)圈的一部分。特別是隨著智能屏的應(yīng)用，音箱已經(jīng)朝著多模態(tài)人工智能交互的方向發(fā)展。智能音箱市場空間大智能

2019-12-17 17:39:43

5272

大咖齊聚、干貨滿滿！2019炬芯Techlife多模態(tài)交互技術(shù)開發(fā)者大會與你共享！

技術(shù)的思考，給大家?guī)砹烁嘈碌撵`感和火花。也感謝各位參加活動的小伙伴，感謝你們見證了炬芯 Techlife 的成長，共同經(jīng)歷并貢獻(xiàn)了炬芯科技 Techlife 多模態(tài)交互技術(shù)開發(fā)者大會的高光時刻和心動瞬間。我們也將會議的精彩內(nèi)容和大家分享，再現(xiàn)大咖的精彩分享，和大家共

2019-12-21 16:03:16

2029

淺談智能人機(jī)交互的三個必然趨勢

百度集團(tuán)執(zhí)行副總裁沈抖在演講中提到，AI技術(shù)讓人機(jī)交互模式有更多的可能性。從長遠(yuǎn)的角度來看，智能人機(jī)交互將有三個必然趨勢：首先，未來智能終端將會指數(shù)級增長；其次，人和終端的交互將會多模態(tài)，語音、圖像交互將會成為主流；第三個趨勢是，信息和服務(wù)將會場景化。

2020-12-09 11:41:30

4204

廈門軟件園多模態(tài)智能交互服務(wù)站已全部部署完成

的便捷生活。此次云知聲智能化設(shè)備進(jìn)園區(qū)，不僅能夠更好地服務(wù)園區(qū)企業(yè)和員工，同時也為豐富園區(qū)智慧化場景應(yīng)用、深化智能化園區(qū)建設(shè)提供有力支撐。 ? 多模態(tài)智能交互服務(wù)站是專為廈門軟件園三期定制開發(fā)的全場景智能交互平

2021-01-10 10:28:55

2839

通用人工智能的多模態(tài)通用技術(shù)

現(xiàn)有的大多數(shù)人工智能模型和方法仍屬于窄人工智能，也被稱為弱人工智能（weak artificial intelligence）。相對而言，強(qiáng)人工智能（strong artificial

2021-02-04 10:44:40

7178

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

11783

基于注意力神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析方法

近年來，越來越多的人熱衷于在社交媒體上同時用圖片和文本等媒體形式表達(dá)自己的感受與看法，使得以圖片和文本為主要內(nèi)容的多模態(tài)數(shù)據(jù)不斷増長。相比單模態(tài)數(shù)據(jù)，多模態(tài)數(shù)據(jù)包含的信息更豐富，更能揭示用戶的真實

2021-04-28 14:41:41

多模態(tài)MR和多特征融合的GBM自動分割算法

多模態(tài)MR和多特征融合的GBM自動分割算法

2021-06-27 11:45:54

簡述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題

來自：哈工大SCIR 本期導(dǎo)讀：近年來研究人員在計算機(jī)視覺和自然語言處理方向均取得了很大進(jìn)展，因此融合了二者的多模態(tài)深度學(xué)習(xí)也越來越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù)，將從多模態(tài)預(yù)訓(xùn)練

2021-08-26 16:29:52

7520

模態(tài)分析定義以及模態(tài)假設(shè)理論

模態(tài)分析的經(jīng)典定義為，將線性定常系統(tǒng)振動微分方程組中的物理坐標(biāo)變換為模態(tài)坐標(biāo)，使方程組解耦，成為一組以模態(tài)坐標(biāo)及模態(tài)參數(shù)描述的獨立方程，以便求出系統(tǒng)的模態(tài)參數(shù)。

2022-04-26 10:43:28

3256

實現(xiàn)多模態(tài)的神經(jīng)形態(tài)感知提供了一種新型硬件方案

論文中，課題組以裝有水的杯子為例對多模態(tài)感知進(jìn)行了說明：通常對于只有壓力信息的單模態(tài)感知來講，我們只能知道杯子的形狀、以及杯中的水量，并不能獲悉杯中的水溫。如果想同時得知杯子形狀、水量以及水溫，那么就得引入另一個溫度模態(tài)的信息。

2022-07-28 09:14:10

2269

機(jī)器學(xué)習(xí)多模態(tài)落地存在哪些挑戰(zhàn)

多模態(tài)技術(shù)有著相當(dāng)廣泛的應(yīng)用場景，如淘寶搜圖、AI字幕、AI虛擬數(shù)字人、仿人交互、智能助手、商品推薦和信息流廣告、視頻幀人臉幀的圖向量檢索、語音交互等等。

2022-10-11 15:20:20

1547

多模態(tài)交互已成未來發(fā)展關(guān)鍵所在思必馳緊抓發(fā)展新契機(jī)

當(dāng)前，車聯(lián)網(wǎng)已經(jīng)成為了國內(nèi)外新一輪科技創(chuàng)新和產(chǎn)業(yè)發(fā)展的必爭之地。其中，車內(nèi)的語音交互正在從單純的“控制方式”向“智能連接”進(jìn)化，并且已經(jīng)成為了現(xiàn)階段人機(jī)交互最主要的方式之一。從很大程度上來說，在

2023-02-02 10:51:32

993

中文多模態(tài)對話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多模態(tài)對話數(shù)據(jù)集，主要來自電影、電視劇、社交媒體平臺等

2023-02-22 11:03:01

2185

AIGC最新綜述：從GAN到ChatGPT的AI生成歷史

本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和多模態(tài)交互的最新進(jìn)展。我們從單峰性的角度介紹了文本和圖像的生成任務(wù)和相關(guān)模型。我們從多模態(tài)的角度來介紹上述模態(tài)之間的交叉應(yīng)用。最后，我們討論了 AIGC 中存在的開放性問題和未來的挑戰(zhàn)。

2023-03-13 10:13:09

4058

ImageBind：跨模態(tài)之王，將6種模態(tài)全部綁定！

最近，很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此，視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù)，反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

2023-05-11 09:30:44

1973

邱錫鵬團(tuán)隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

LLM 與通用人工智能（AGI）之間仍存在顯著差距。首先，大多數(shù)當(dāng)前 LLM 只能感知和理解多模態(tài)內(nèi)容，而不能自然而然地生成多模態(tài)內(nèi)容。其次，像圖像和語音這樣的連續(xù)信號不能直接適應(yīng)接收離散 token 的 LLM。

2023-05-22 14:38:06

1333

多模態(tài)數(shù)據(jù)定制服務(wù)：提升智能化應(yīng)用的關(guān)鍵利器

可以獲得更準(zhǔn)確、全面且豐富的信息，為智能化應(yīng)用提供強(qiáng)有力的支持。在這方面，數(shù)據(jù)堂是您的理想合作伙伴。作為一家領(lǐng)先的數(shù)據(jù)科技公司，數(shù)據(jù)堂致力于提供多模態(tài)數(shù)據(jù)定制服務(wù)，幫助企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動決策和智能化轉(zhuǎn)型。數(shù)

2023-06-18 21:24:47

952

VisCPM：邁向多語言多模態(tài)大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個前沿焦點?？傮w而言，面向圖像和文本的多模態(tài)生成能力

2023-07-10 10:05:01

1255

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項任務(wù)，在多模態(tài)大模型領(lǐng)域保持較高

2023-07-16 20:45:02

1369

UniVL-DR: 多模態(tài)稠密向量檢索模型

for Multi-Modal Retrieval 背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù)，然而多媒體內(nèi)容的增長一直是互聯(lián)網(wǎng)上最顯著趨勢之一，各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動的多模態(tài)內(nèi)容。因而，針對于多

2023-08-06 22:00:03

1796

基于Transformer多模態(tài)先導(dǎo)性工作

，不同模態(tài)之間的信息可以相互補(bǔ)充、交互作用，從而提供更深入、更全面的理解和溝通。以人類的感知為例，我們在日常生活中通常會同時接收多種感知信息。當(dāng)我們觀看一部電影時，我們不僅僅依靠視覺信息來理解情節(jié)和角色，還借助于聽覺信息

2023-08-21 09:49:52

1517

DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識。因此，這些研究并沒有充分認(rèn)識到多模式創(chuàng)造和理解之間潛在的學(xué)習(xí)協(xié)同作用，只顯示出創(chuàng)造力的微小提高，并且在多模式理解方面仍然存在不足。

2023-09-25 17:26:43

1532

基于視覺的多模態(tài)觸覺感知系統(tǒng)

傳統(tǒng)的多模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到多模態(tài)觸覺信息的解耦，但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性，以及需要應(yīng)對來自不同刺激間的干擾。

2023-10-18 11:24:48

2013

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單模態(tài)模型編輯入手，將單模態(tài)模型編輯拓展到多模態(tài)模型編輯，主要從以下三個方面：可靠性（Reliability），穩(wěn)定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

1017

任意文本、視覺、音頻混合生成，多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

CoDi ）模型，讓一種模型統(tǒng)一多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)的生成，還能接收多個條件輸入以及多模態(tài)聯(lián)合生成。近日，UC 伯克利、微軟 Azure AI、Zoom、北卡羅來納大學(xué)教堂

2023-12-03 20:20:02

1089

大模型+多模態(tài)的3種實現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+多模態(tài)”的3種實現(xiàn)方法。

2023-12-13 13:55:04

3106

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合，以實現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹多模態(tài)的概念、研究內(nèi)容和應(yīng)用場景，并探討人工智能領(lǐng)域多模態(tài)的未來發(fā)展趨勢。

2023-12-15 14:28:44

13426

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時間Google推出Gemini多模態(tài)大模型，展示了不凡的對話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

2023-12-28 11:19:52

2300

OneLLM：對齊所有模態(tài)的框架！

OneLLM 是第一個在單個模型中集成八種不同模態(tài)的MLLM。通過統(tǒng)一的框架和漸進(jìn)式多模態(tài)對齊pipelines，可以很容易地擴(kuò)展OneLLM以包含更多數(shù)據(jù)模式。

2024-01-04 11:27:19

1877

什么是多模態(tài)？多模態(tài)的難題是什么？

單模態(tài)大模型，通常大于100M～1B參數(shù)。具有較強(qiáng)的通用性，比如對圖片中任意物體進(jìn)行分割，或者生成任意內(nèi)容的圖片或聲音。極大降低了場景的定制成本。

2024-01-17 10:03:12

6917

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時多模態(tài)問答技術(shù)的加持，能實現(xiàn)所見即所問、所問即所得的精準(zhǔn)服務(wù)。此外，融合了人類意圖理解、長期記憶機(jī)制、情感大模型及TTS 克

2024-04-18 17:01:29

1091

慕尼黑電子展回顧：啟明智顯多模態(tài)硬件智能體引領(lǐng)科技潮流

人流如織，熱鬧非凡。多模態(tài)硬件智能體：未來科技的集大成者展會現(xiàn)場，啟明智顯隆重推出了其自主研發(fā)的多模態(tài)硬件智能體。這一創(chuàng)新產(chǎn)品融合了HMI（人機(jī)界面）、語音交互、大

2024-07-10 16:17:30

950

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨運(yùn)的山海多模態(tài)大模型，正式宣告“Her時代”的帷幕緩緩拉開。

2024-08-27 15:20:21

843

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實現(xiàn)了對圖像內(nèi)容的精準(zhǔn)理解，標(biāo)志著Meta在AI多模態(tài)處理領(lǐng)域邁出了堅實的一步。

2024-09-27 11:44:14

982

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測評榜首

近日，多模態(tài)人工智能模型基準(zhǔn)評測集MMMU更新榜單，云知聲山海多模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專業(yè)能力雙雙排名第一的優(yōu)異成績登頂榜首，力壓GPT-4V，充分彰顯其硬核實力。

2024-10-12 14:09:10

1077

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)大模型可以可以理解多種不同模態(tài)的輸入數(shù)據(jù)，并輸出相應(yīng)反饋結(jié)果，例如圖像理解，語音識別，視覺問題等。

2024-10-18 09:39:38

2710

超聲界“內(nèi)卷終結(jié)者”！ZRT智銳通提供全新引擎打造多模態(tài)影像融合系統(tǒng)

多模態(tài)影像融合超聲系統(tǒng)的市場規(guī)模也在不斷擴(kuò)大，國內(nèi)眾多超聲系統(tǒng)廠家也在不斷尋找合適的硬件平臺，用以承載旗下的多模態(tài)影像融合超聲系統(tǒng)。

2024-11-11 10:52:22

1650

亥步多模態(tài)醫(yī)療大模型發(fā)布：人工智能引領(lǐng)醫(yī)療新紀(jì)元

當(dāng)下，人工智能（AI）正以不可阻擋之勢滲透到各行各業(yè)，包括醫(yī)療行業(yè)。12月14日，2024中國醫(yī)學(xué)人工智能大會的召開。會上，一款名為“亥步”的多模態(tài)醫(yī)療大模型的正式發(fā)布。

2024-12-19 17:56:05

845

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

2024-12-20 10:39:31

1573

海康威視發(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品

多模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新，基于觀瀾大模型技術(shù)體系，?？低晫⒋髤?shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合，發(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品——文搜NVR、文搜CVR。

2025-02-18 10:33:56

1125

?多模態(tài)交互技術(shù)解析

多模態(tài)交互多模態(tài)交互（ Multimodal Interaction ）是指通過多種感官通道（如視覺、聽覺、觸覺等）或多種交互方式（如語音、手勢、觸控、眼動等）與計算機(jī)系統(tǒng)進(jìn)行自然、協(xié)同的信息交互

2025-03-17 15:12:44

3945

移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗

隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速，多模態(tài)AI大模型的應(yīng)用需求不斷攀升，圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。3月20日，全球物聯(lián)網(wǎng)整體解決方案供應(yīng)商移遠(yuǎn)通信宣布，其全系

2025-03-20 19:03:54

704

移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗

隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速，多模態(tài)AI大模型的應(yīng)用需求不斷攀升，圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。 ? 3月20日，全球物聯(lián)網(wǎng)整體解決方案供應(yīng)商移遠(yuǎn)通信宣布，其

2025-03-21 14:12:14

454

XMOS為普及AI應(yīng)用推出基于軟件定義SoC的多模態(tài)AI傳感器融合接口

多模態(tài)傳感信號AI處理為智算中心和邊緣智能開啟感知智能的新篇章

2025-05-12 17:51:54

430

多模態(tài)+空間智能：盾華以AI+智慧路燈桿，點亮城市治理新方式

多模態(tài)+空間智能：盾華以AI+智慧路燈桿，點亮城市治理新方式

2025-06-12 10:17:08

473

汽車多模態(tài)交互測試：智能交互的深度驗證

在汽車智能座艙測試的關(guān)鍵進(jìn)程中，北京沃華慧通測控技術(shù)有限公司展現(xiàn)出了獨特的價值與優(yōu)勢。作為一家專注于測控技術(shù)領(lǐng)域的企業(yè)，沃華慧通在智能座艙測試方面積累了豐富的經(jīng)驗和專業(yè)的技術(shù)能力。其研發(fā)的測試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境，對智能座艙的多模態(tài)交互系統(tǒng)進(jìn)行全面、深入的測試。

2025-06-25 09:00:50

1296

商湯科技多模態(tài)通用智能戰(zhàn)略思考

時間是最好的試金石，AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時，商湯早已錨定“多模態(tài)通用智能”——這是我們以深厚研究積累和實踐反復(fù)驗證的可行路徑。

2025-08-14 09:33:34

1085

淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實例

?在人工智能邁向AGI通用智能的關(guān)鍵道路上，大模型正從單一的文本理解者，演進(jìn)為能同時看、聽、讀、想的“多面手”。驅(qū)動這一進(jìn)化的核心燃料，正是高質(zhì)量的多模態(tài)數(shù)據(jù)，而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材

2025-09-05 13:49:27

1258

2025安凱微電子開發(fā)者技術(shù)論壇成功舉辦——發(fā)布多款芯片，探索多模態(tài)與智能體落地

Forum 2025，簡稱 “ADF 2025”）。本次論壇以 “從多媒體到多模態(tài)，從智能硬件到智能體” 為主題，匯聚了學(xué)界專家、產(chǎn)業(yè)鏈上下游核心合作伙伴以及深耕智能硬件與邊緣計算領(lǐng)域的開發(fā)者，聚焦多模態(tài)、智能體，共同探討邊緣智能領(lǐng)域技術(shù)前沿與產(chǎn)業(yè)落地，發(fā)布了多款芯片產(chǎn)品及解決方案。

2025-10-27 11:54:14

412

多模態(tài)與智能體：學(xué)術(shù)界與產(chǎn)業(yè)界共話邊緣智能新未來-2025安凱微電子開發(fā)者技術(shù)論

展開深度分享。主題報告張長水博士：多模態(tài)融合是智能體發(fā)展的核心方向清華大學(xué)教授、 IEEE Fellow 、安凱微電子首席科學(xué)家張長水博士在《多模態(tài)與智能體》報告中，系統(tǒng)梳理了AI從“專用”向“通用”的演進(jìn)邏輯。他指出，以DeepSeek、豆包等為代表的大語言模

2025-10-29 10:15:10

3504

亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

專為Agentic RAG與語義搜索量身打造，以行業(yè)頂尖的準(zhǔn)確率實現(xiàn)跨模態(tài)檢索北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布，Amazon Nova Multimodal

2025-10-29 17:15:16

174

集成端側(cè)AI的可穿戴多模態(tài)生理參數(shù)采集設(shè)備是腦機(jī)接口家用的未來？

HUIYING集成端側(cè)AI的可穿戴多模態(tài)生理參數(shù)采集設(shè)備系統(tǒng)概述隨著對實時生理監(jiān)測與人機(jī)交互需求的增長，傳統(tǒng)可穿戴設(shè)備在多模態(tài)同步采集與端側(cè)智能處理方面存在不足。BioGAP-Ultra應(yīng)運(yùn)而生

2025-11-05 18:03:29

1527

芯導(dǎo)科技AI智能交互硬件方案介紹

AI智能交互硬件是通過集成人工智能技術(shù)（如大語言模型、多模態(tài)交互、機(jī)器學(xué)習(xí)等），賦予傳統(tǒng)玩具智能化交互能力的新型產(chǎn)品。其核心特點是?擬人化交互和自適應(yīng)學(xué)習(xí)?，能夠理解用戶語言、動作甚至情緒，并提供個性化響應(yīng)。??

2025-12-03 17:00:09

2216