人人想人人爱人人爽,天天超碰国产免费

據(jù)外媒VentureBeat報道，來自三星、麥吉爾大學和約克大學的研究人員，近日研發(fā)出一個全新的生成式多模態(tài)感知AI框架，能夠根據(jù)物體初始狀態(tài)的視覺和觸覺數(shù)據(jù)，來預(yù)測出物體的運動趨勢。

據(jù)悉，這是第一個利用視覺和觸覺感知來學習多模態(tài)動力學模型的研究。

運動預(yù)測是自動化領(lǐng)域的一大關(guān)鍵技術(shù)，通過預(yù)判物體和環(huán)境的交互方式，自動化系統(tǒng)得以作出更加智能的決策。該團隊的這項研究，似乎又將這一技術(shù)的應(yīng)用向前推進了一步。

這篇論文名為《基于多模態(tài)的生成模型指導的直觀物理研究（Learning Intuitive Physics with Multimodal Generative Models）》，已發(fā)表于arXiv平臺。

論文鏈接：

https://arxiv.org/pdf/2101.04454.pdf

一、運動預(yù)測有挑戰(zhàn)：摩擦力、壓力難確定

假如你要接住一個掉落的物體，你會迅速判斷它的運動走向，然后準確接住它。

但對于一個機器人來說，要準確預(yù)測出物體還未發(fā)生的運動趨勢，可不是一件容易的事。

近期，不少運動預(yù)測方面的AI研究，都指出了觸覺和視覺之間的協(xié)同作用。

其中，觸覺數(shù)據(jù)可以反映物體和環(huán)境間的作用力、由此產(chǎn)生的物體運動和環(huán)境接觸等關(guān)鍵信息，提供一種展現(xiàn)物體與環(huán)境交互過程的整體視角；視覺數(shù)據(jù)則可以直觀反映了立體形狀、位置等物體屬性。

在本文研究人員看來，視覺、觸覺信號的組合，或有助于推測出物體運動后的最終穩(wěn)定狀態(tài)。

研究人員在論文寫道：“先前的研究表明，由于摩擦力、幾何特性、壓力分布存在不確定性，預(yù)測運動對象的軌跡具有挑戰(zhàn)性?！?/p>

比如推一個瓶子，如何準確預(yù)測這個動作的結(jié)果，接下來這個瓶子是會向前移動，還是會翻倒？

▲《基于多模態(tài)的生成模型指導的直觀物理研究（Learning Intuitive Physics with Multimodal Generative Models）》論文插圖

為了減少這種不確定性，研究團隊設(shè)計并實現(xiàn)了一個由軟硬件組成的高質(zhì)量AI感知系統(tǒng)，經(jīng)訓練后，該系統(tǒng)能捕獲到運動軌跡中最關(guān)鍵、最穩(wěn)定的元素，從而準確測量和預(yù)測物體落在表面上的最終靜止狀態(tài)。

二、開發(fā)新型視覺觸覺傳感器，打造多模態(tài)感知系統(tǒng)

動態(tài)預(yù)測常被表述為一個高分辨率的時間問題，但在此項研究中，研究人員關(guān)注的是物體運動后的最終結(jié)果，而不是預(yù)測細粒度的物體運動軌跡。

研究人員認為，關(guān)注未來關(guān)鍵時間的結(jié)果，有助于大大提高模型預(yù)測的準確度和可靠性。

該研究團隊開發(fā)了一款名為“透視肌膚（STS，See-Through-Your-Skin）”的新型視覺-觸覺多模態(tài)傳感器，可以同時捕捉物體的視覺和觸覺特征數(shù)據(jù)，并重建在1640×1232的高分辨率圖像中。

由于光學觸覺傳感器通常使用不透明和反光的涂料涂層，研究人員開發(fā)了一種具有可控透明度的薄膜，使得傳感器能同時采集關(guān)于物理交互的觸覺信息和傳感器外部世界的視覺信息。

具體而言，研究人員通過改變STS傳感器的內(nèi)部照明條件，來控制傳感器的觸覺和視覺測量的占空比，從而設(shè)置了反光涂料層的透明度。

如上圖左上角所示，利用內(nèi)部照明可將傳感器表面變成透明，從而使得傳感器內(nèi)置攝像頭能直接采集傳感器外部世界的圖像；上圖的左下角顯示，傳感器也可以保持內(nèi)外一致的亮度，通過感知膜形變來采集物理交互觸覺信息。

借助STS傳感器和PyBullet模擬器，研究人員在動態(tài)場景中快速生成大量物體交互的視覺觸覺數(shù)據(jù)集，用于驗證其感知系統(tǒng)的性能。

受多模態(tài)變分自編碼器（MVAE）啟發(fā)，研究團隊設(shè)計了一個生成式多模態(tài)感知系統(tǒng)，在一個統(tǒng)一的MVAE框架內(nèi)集成了視覺、觸覺和3D Pose反饋。

MVAE可以解讀STS傳感器采集的視覺、觸覺數(shù)據(jù)，將所有模態(tài)的物體關(guān)鍵信息映射到一個共享的嵌入空間，用于推斷物體在運動后最終的穩(wěn)定狀態(tài)。

實驗結(jié)果表明，MVAE架構(gòu)可以被訓練用于預(yù)測多模態(tài)運動軌跡中最穩(wěn)定和信息最豐富的元素。

三、不懼單一模態(tài)信息缺失，準確預(yù)測物體未來狀態(tài)

該研究團隊生成的視覺觸覺數(shù)據(jù)庫主要包含三種動態(tài)模擬場景，分別是物體在平面上自由落體、物體在斜面上下滑、物體在靜止狀態(tài)下收到外力擾動。

下圖顯示了模擬三種動態(tài)場景的示例集，頂部一行顯示3D Pose視圖，中間一行、底部一行分別顯示STS傳感器采集的視覺和觸覺結(jié)果。

研究人員在三種模擬動態(tài)場景和使用STS傳感器的真實實驗場景中，分別驗證了其動力學模型的預(yù)測能力。

如下方圖表顯示，在三種模擬場景中的固定步和最終步預(yù)測中，相比僅依賴視覺（VAE-visual only）或僅依賴觸覺（VAE-tactile only）的單模態(tài)感知模型，多模態(tài)感知模型（MVAE）在驗證集中的二進制交叉熵誤差（BCE）均值更小，即預(yù)測結(jié)果的準確性更高。

研究人員還用基于高時間分辨率的模型進行對比實驗，發(fā)現(xiàn)這一模型在預(yù)測物體最終靜止狀態(tài)時，準確性要高于動態(tài)模型。這是由于不確定性和錯誤會隨著時間前向傳播，導致模糊和不精確的預(yù)測。

結(jié)果表明，在對中間狀態(tài)不感興趣的動態(tài)場景中，該AI框架能以更高的準確度來預(yù)測最終結(jié)果，而無需明確推理中間步驟。

此外，由于該研究方法破譯了觸覺、視覺、物體姿態(tài)之間的映射關(guān)系，因此即便某一模態(tài)信息缺失，比如缺乏觸覺信息時，該框架仍然可以從視覺信息推測出視覺信息，從而預(yù)測物體運動后的最終落點。

結(jié)語：制造業(yè)自動化將是運動預(yù)測的一大應(yīng)用場景

該研究團隊的這項新成果能夠基于觸覺、視覺的雙模態(tài)數(shù)據(jù)對物體的運動軌跡進行預(yù)判，并推測出物體的最終靜止狀態(tài)。

相較于以往的運動預(yù)測技術(shù)，該研究團隊實現(xiàn)了觸覺和視覺數(shù)據(jù)的雙向推測，為制造業(yè)的自動化場景提供了更多的可能性。

比如，揀貨機器人能夠更準確地判斷貨物的運動狀態(tài)，從而提高拾取精度；貨架機器人能夠提前預(yù)判貨物的運動軌跡，從而防止貨物跌落破損，減少損失。

不過，這項成果能夠預(yù)測的運動狀態(tài)還相對有限，我們期待研究團隊對復雜的運動模式、多樣的物體形態(tài)進行更多的模擬和技術(shù)攻關(guān)。

責任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39820

瀏覽量
301485
自動化

自動化

+關(guān)注

關(guān)注
31

文章
5937

瀏覽量
90283
智能感知

智能感知

+關(guān)注

關(guān)注
2

文章
114

瀏覽量
18326
運動物體

運動物體

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
6828

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

研發(fā)全新多模態(tài)感知AI框架 AI能同時模擬人眼和手預(yù)測物體運動

評論