91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AppAgent讓移動(dòng)App應(yīng)用測(cè)試更輕松

vliwulianw ? 來源:軟件質(zhì)量報(bào)道 ? 2023-12-26 10:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AppAgent 的創(chuàng)新技術(shù)值得我們測(cè)試人員的關(guān)注。

最近大語言模型(LLMs)的進(jìn)展導(dǎo)致了智能代理(Agent)的創(chuàng)建,這些代理能夠執(zhí)行復(fù)雜的任務(wù)。而由騰訊團(tuán)隊(duì)開發(fā)的AppAgent, 其智能代理能力可以用于操作任何 App,它在 50 個(gè)復(fù)雜手機(jī)任務(wù)上展示了強(qiáng)大的能力。

這項(xiàng)技術(shù)通過引入一種基于大型語言模型(LLMs)的多模態(tài)智能代理(Agent)框架,賦予了智能體操作智能手機(jī)應(yīng)用的能力。與傳統(tǒng)的智能助手如 Siri 不同,AppAgent 不依賴于系統(tǒng)后端訪問,而是通過簡(jiǎn)化的操作空間來操作智能手機(jī)應(yīng)用程序,可以模擬人類的點(diǎn)擊和滑動(dòng)等操作,直接與手機(jī)應(yīng)用的圖形用戶界面(GUI)互動(dòng)。這種獨(dú)特的方法不僅提高了安全性和隱私性,還確保了智能體能夠適應(yīng)應(yīng)用界面的變化和更新,從而擴(kuò)大了它在各種應(yīng)用程序中的適用性。

AppAgent 的核心在于其創(chuàng)新的學(xué)習(xí)方式,智能體可以通過自主探索或觀察人類演示來學(xué)習(xí)如何導(dǎo)航和使用新應(yīng)用。在自主探索過程中,。這個(gè)過程還可以通過觀察少數(shù)幾個(gè)人類演示來加速,使智能體能夠更快地理解復(fù)雜功能。

AppAgent分為兩個(gè)階段,分別稱為探索階段和部署階段。在自主探索階段,AppAgent智能體通過一系列預(yù)定義的動(dòng)作與應(yīng)用互動(dòng),觀察不同應(yīng)用程序的用戶界面交互(每個(gè)動(dòng)作帶來的界面變化),AppAgent與智能手機(jī)應(yīng)用程序進(jìn)行交互,并從結(jié)果中學(xué)習(xí),所學(xué)到的知識(shí)被精心編制成文件(構(gòu)建知識(shí)庫)。一旦這個(gè)學(xué)習(xí)階段完成,AppAgent變得擅長(zhǎng)使用應(yīng)用程序,就準(zhǔn)備好行動(dòng)了,即在探索階段之后的部署階段,AppAgent利用編制在此文檔中的信息來高效地操作和導(dǎo)航應(yīng)用程序,完成不同應(yīng)用程序中的各種復(fù)雜任務(wù)。

ab92392a-a217-11ee-8b88-92fbcf53809c.png

(圖1 框架的兩階段方法:探索階段和部署階段)

為了驗(yàn)證其實(shí)用性,研究團(tuán)隊(duì)對(duì) AppAgent 進(jìn)行了廣泛測(cè)試,覆蓋了社交媒體、電子郵件、地圖、購物以及復(fù)雜的圖像編輯工具等 10 種不同的應(yīng)用中的 50 個(gè)任務(wù)。測(cè)試結(jié)果證明,AppAgent 在處理各種高級(jí)任務(wù)方面表現(xiàn)出色,顯示出其適應(yīng)性、用戶友好性以及高效的學(xué)習(xí)和操作能力。

1.實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境建立在Android操作系統(tǒng)的命令行界面(CLI)上,允許AppAgent與智能手機(jī)應(yīng)用程序進(jìn)行交互。代理接收兩個(gè)關(guān)鍵輸入:顯示應(yīng)用程序界面的實(shí)時(shí)截圖和詳細(xì)的交互元素的XML文件。為了增強(qiáng)AppAgent識(shí)別和無縫交互這些元素的能力,我們?yōu)槊總€(gè)元素分配了一個(gè)唯一的標(biāo)識(shí)符。這些標(biāo)識(shí)符要么來自XML文件中的資源ID(如果提供),要么是通過組合元素的類名、大小和內(nèi)容構(gòu)建而成。這些元素以半透明的數(shù)字疊加在截圖上。這有助于AppAgent在不需要指定屏幕上精確位置的情況下準(zhǔn)確交互,并增強(qiáng)了AppAgent在控制手機(jī)時(shí)的精度。

行動(dòng)空間:AppAgent的行動(dòng)空間反映了人們?cè)谥悄苁謾C(jī)上的常見交互方式:輕觸和滑動(dòng),設(shè)計(jì)了四種基本功能,并用到Android的兩個(gè)系統(tǒng)級(jí)的操作:

Tap(element : int):這個(gè)函數(shù)模擬對(duì)屏幕上標(biāo)有數(shù)字的UI元素進(jìn)行輕觸。例如,tap(5)將點(diǎn)擊標(biāo)有“5”的元素。

Long_press(element : int):這個(gè)函數(shù)模擬對(duì)UI元素進(jìn)行長(zhǎng)按(1秒)。

Swipe(element : int, direction : str, dist : str):在指定方向(上、下、左、右)和距離(短、中、長(zhǎng))上滑動(dòng)一個(gè)元素。例如,swipe(21, "up", "medium")將在元素“21”上向上滑動(dòng)一段中等距離。

Text(text : str):為了繞過低效的虛擬鍵盤輸入,這個(gè)函數(shù)在虛擬鍵盤可見時(shí)直接將文本輸入到輸入框中。例如,text("Hello, world!")輸入字符串“Hello, world!”。

Back():系統(tǒng)級(jí)功能,幫助代理返回到前一個(gè)UI頁面,特別適用于退出不相關(guān)頁面。

Exit():特地的函數(shù)用于結(jié)束進(jìn)程,通常在成功完成任務(wù)時(shí)調(diào)用。

這些預(yù)定義的動(dòng)作旨在簡(jiǎn)化AppAgent的交互,特別是通過消除對(duì)精確屏幕坐標(biāo)的需求,這對(duì)于大語言模型(LLM)準(zhǔn)確預(yù)測(cè)來說可能會(huì)帶來挑戰(zhàn)。

2. 探索階段

探索階段是這個(gè)框架的核心。

在此階段,AppAgent被分配一個(gè)任務(wù),并開始自主與UI元素進(jìn)行交互,通過試錯(cuò)學(xué)習(xí)智能手機(jī)應(yīng)用程序的功能和特性。

AppAgent使用不同的動(dòng)作,并觀察應(yīng)用界面的變化,以了解其工作原理。由LLM驅(qū)動(dòng)的AppAgent試圖通過分析每個(gè)動(dòng)作之前和之后的截圖來弄清楚UI元素的功能和特定動(dòng)作的影響。這些信息被編制成一個(gè)記錄了對(duì)不同元素應(yīng)用的動(dòng)作效果的文檔。

當(dāng)一個(gè)UI元素被多次操作時(shí),AppAgent將根據(jù)過去的文檔和當(dāng)前觀察更新文檔以提高質(zhì)量。為了使探索更加高效,如果當(dāng)前UI頁面似乎與應(yīng)用的主要任務(wù)無關(guān),如廣告頁面,AppAgent將停止進(jìn)一步探索UI元素。在這種情況下,它使用Android系統(tǒng)的Back()函數(shù)返回到前一個(gè)UI頁面。

與隨機(jī)探索(如深度優(yōu)先搜索和廣度優(yōu)先搜索)相比,這種目標(biāo)導(dǎo)向的探索方法確保代理專注于對(duì)應(yīng)用程序有效操作至關(guān)重要的元素。AppAgent還利用LLM對(duì)用戶界面的現(xiàn)有知識(shí)來提高探索效率。當(dāng)AppAgent完成分配的任務(wù)時(shí),探索停止。

通過觀看演示進(jìn)行探索。另一種常見且通常更有效的探索方法涉及AppAgent觀察人類示范。這些演示為代理提供了高效使用應(yīng)用程序的示例,特別是對(duì)于理解可能通過自主交互難以發(fā)現(xiàn)的復(fù)雜功能。在這種方法中,一個(gè)人類用戶操作應(yīng)用程序,而AppAgent觀察并記錄人類使用的元素和動(dòng)作。這種策略縮小了探索空間,防止代理與無關(guān)的應(yīng)用頁面進(jìn)行交互,使其與自主交互相比成為更加簡(jiǎn)化和高效的方法。

3. 部署階段

在探索階段之后,代理已經(jīng)具備了執(zhí)行復(fù)雜任務(wù)的能力,這是基于其積累的經(jīng)驗(yàn)。當(dāng)給定任務(wù)時(shí),代理遵循一種逐步的方法,每一步都包括對(duì)當(dāng)前UI截圖的訪問和動(dòng)態(tài)生成的文檔,詳細(xì)說明了UI元素的功能以及動(dòng)作對(duì)當(dāng)前UI頁面的影響。提示還提供了所有可用動(dòng)作的詳細(xì)解釋。

在每一步中,代理首先被要求提供對(duì)當(dāng)前UI的觀察,然后闡述其對(duì)任務(wù)和當(dāng)前觀察的思考過程。隨后,代理開始執(zhí)行動(dòng)作,調(diào)用可用的函數(shù)。在每個(gè)動(dòng)作之后,代理總結(jié)了交互歷史和當(dāng)前步驟中所采取的動(dòng)作。這些信息被納入下一個(gè)提示中,為代理提供了一種記憶形式。這種細(xì)致的方法增強(qiáng)了代理行動(dòng)的可靠性和可解釋性,從而促進(jìn)了更明智的決策制定。當(dāng)代理確定任務(wù)已經(jīng)完成時(shí),部署階段停止,此時(shí)它可以通過執(zhí)行Exit()動(dòng)作退出流程。

aefef242-a217-11ee-8b88-92fbcf53809c.gif









審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • GUI
    GUI
    +關(guān)注

    關(guān)注

    3

    文章

    697

    瀏覽量

    43459
  • XML技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    6195
  • CLI
    CLI
    +關(guān)注

    關(guān)注

    1

    文章

    80

    瀏覽量

    9051

原文標(biāo)題:震撼:AppAgent讓移動(dòng)App應(yīng)用測(cè)試更輕松

文章出處:【微信號(hào):軟件質(zhì)量報(bào)道,微信公眾號(hào):軟件質(zhì)量報(bào)道】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    動(dòng)態(tài)血糖儀如何疾病監(jiān)測(cè)更輕松便捷

    動(dòng)態(tài)血糖儀無需指尖采血,即可提供實(shí)時(shí)血糖數(shù)據(jù),有助于改善糖尿病管理。
    的頭像 發(fā)表于 02-25 10:42 ?673次閱讀
    動(dòng)態(tài)血糖儀如何<b class='flag-5'>讓</b>疾病監(jiān)測(cè)<b class='flag-5'>更輕松</b>便捷

    AI智能眼鏡會(huì)生活更輕松

    科技行業(yè)長(zhǎng)期以來都在構(gòu)想一個(gè)增強(qiáng)型世界,即數(shù)字與物理能夠無縫融合,用戶在不被拉離當(dāng)下現(xiàn)實(shí)的情況下,依然保持對(duì)真實(shí)世界的專注。然而,能夠真正將這一愿景落地的理想硬件與技術(shù)組合,至今仍未出現(xiàn)。
    的頭像 發(fā)表于 02-05 14:57 ?867次閱讀

    風(fēng)電變槳系統(tǒng)故障多?振動(dòng)監(jiān)測(cè) + 遠(yuǎn)程調(diào)參

    未來,隨著數(shù)字孿生、AI 診斷等技術(shù)的融合,風(fēng)電場(chǎng)智能化水平還將持續(xù)升級(jí),故障少發(fā)生、運(yùn)維更輕松。
    的頭像 發(fā)表于 11-25 10:00 ?608次閱讀
    風(fēng)電變槳系統(tǒng)故障多?振動(dòng)監(jiān)測(cè) + 遠(yuǎn)程調(diào)參

    Flutter 移動(dòng)端開發(fā):集成淘寶 API 實(shí)現(xiàn)商品數(shù)據(jù)實(shí)時(shí)展示 APP

    在電商蓬勃發(fā)展的當(dāng)下,移動(dòng)端購物成為主流趨勢(shì)。對(duì)于開發(fā)者而言,利用 Flutter 構(gòu)建一個(gè)能夠?qū)崟r(shí)展示淘寶商品數(shù)據(jù)的 APP,既能滿足用戶便捷獲取商品信息的需求,也能為電商業(yè)務(wù)拓展新的渠道
    的頭像 發(fā)表于 11-13 09:36 ?365次閱讀

    智能覆冰在線監(jiān)測(cè)裝置,冬日巡線更輕松!

    在線監(jiān)測(cè)
    jf_96960730
    發(fā)布于 :2025年10月21日 10:55:48

    告別測(cè)量煩惱!蔡司硬件升級(jí),效率與輕松同行

    硬核硬件升級(jí)方案來了 從操作到效率全方位“開掛” 測(cè)量工作從此輕松又高效 無線移動(dòng)小車 擺脫線纜束縛,測(cè)量靈活又安心 誰能想到,一個(gè)小小的移動(dòng)小車能解決測(cè)量中的大麻煩? 以前用傳統(tǒng)遠(yuǎn)
    的頭像 發(fā)表于 09-26 17:18 ?1485次閱讀
    告別測(cè)量煩惱!蔡司硬件升級(jí),<b class='flag-5'>讓</b>效率與<b class='flag-5'>輕松</b>同行

    如何大模型生成你想要的測(cè)試用例?

    應(yīng)用大模型生成測(cè)試用例,常見的知識(shí)庫,測(cè)試大模型,微調(diào),RAG等技術(shù)門檻都不低,甚至很難,因此對(duì)于應(yīng)用者而言,最快的方式就是應(yīng)用好提示詞,調(diào)教屬于個(gè)人風(fēng)格的測(cè)試用例智能生成模塊,智能
    的頭像 發(fā)表于 09-26 10:01 ?944次閱讀
    如何<b class='flag-5'>讓</b>大模型生成你想要的<b class='flag-5'>測(cè)試</b>用例?

    推薦5個(gè)測(cè)試效率翻倍的MCP

    推薦5個(gè)測(cè)試效率翻倍的MCP
    的頭像 發(fā)表于 09-19 10:02 ?628次閱讀
    推薦5個(gè)<b class='flag-5'>讓</b><b class='flag-5'>測(cè)試</b>效率翻倍的MCP

    實(shí)時(shí)監(jiān)控與診斷,EtherCAT網(wǎng)絡(luò)管理更輕松!

    上期我們探討了AWStudio運(yùn)動(dòng)控制版的EtherCAT配置功能,這期我們將聚焦于其強(qiáng)大的診斷與監(jiān)控工具,看看它是如何幫助開發(fā)者實(shí)時(shí)掌握網(wǎng)絡(luò)狀態(tài)并快速定位問題的。AWStudio運(yùn)動(dòng)控制版AWStudio運(yùn)動(dòng)控制版提供了實(shí)時(shí)監(jiān)控功能,能夠?qū)崟r(shí)顯示EtherCAT網(wǎng)絡(luò)的運(yùn)行狀態(tài),包括從站設(shè)備的通信狀態(tài)、數(shù)據(jù)交換情況等,這有助于開發(fā)者及時(shí)發(fā)現(xiàn)并解決網(wǎng)絡(luò)中的潛在
    的頭像 發(fā)表于 08-28 11:36 ?721次閱讀
    實(shí)時(shí)監(jiān)控與診斷,<b class='flag-5'>讓</b>EtherCAT網(wǎng)絡(luò)管理<b class='flag-5'>更輕松</b>!

    安科瑞園區(qū)解決方案:綠電直連更高效,低碳管理更輕松

    安科瑞
    jf_459710037
    發(fā)布于 :2025年07月18日 16:48:37

    HarmonyOS 代碼工坊的指尖開發(fā), APP 開發(fā)所見即所得

    過去,移動(dòng)APP 的開發(fā),往往是開發(fā)者在桌面仿真界面上的一場(chǎng)“隔空演練”。 雖然市面上已經(jīng)有一些簡(jiǎn)化開發(fā)的工具,可以在開發(fā)桌面提供模擬移動(dòng)端效果的窗口,但終究不是真實(shí)的移動(dòng)端設(shè)備。
    的頭像 發(fā)表于 06-24 12:08 ?827次閱讀
    HarmonyOS 代碼工坊的指尖開發(fā),<b class='flag-5'>讓</b> <b class='flag-5'>APP</b> 開發(fā)所見即所得

    通過御控APP實(shí)現(xiàn)PLC遠(yuǎn)程調(diào)試與遠(yuǎn)程監(jiān)控

    御控APP,通過移動(dòng)化、智能化的手段,實(shí)現(xiàn)了PLC遠(yuǎn)程調(diào)試與監(jiān)控,為工業(yè)生產(chǎn)帶來了便捷與高效。
    的頭像 發(fā)表于 06-04 09:49 ?627次閱讀

    【HarmonyOS 5】App Linking 應(yīng)用間跳轉(zhuǎn)詳解

    ![](<> \"點(diǎn)擊并拖拽以移動(dòng)\")? 如何開發(fā) 開發(fā)前注意事項(xiàng):使用 App Linking 需使用手動(dòng)生成簽名,自動(dòng)簽名將無法啟動(dòng)應(yīng)用。 1.開通 App
    發(fā)表于 05-16 16:24

    APP自動(dòng)化測(cè)試框架

    APP自動(dòng)化測(cè)試框架是一套結(jié)合工具鏈、設(shè)計(jì)模式和技術(shù)規(guī)范的集成解決方案。以下是基于主流技術(shù)實(shí)踐的核心要點(diǎn)總結(jié): 一、核心模塊構(gòu)成 環(huán)境管理? 支持物理機(jī)/虛擬機(jī)/容器化部署,集成ADB、Appium
    的頭像 發(fā)表于 05-07 07:35 ?665次閱讀
    <b class='flag-5'>APP</b>自動(dòng)化<b class='flag-5'>測(cè)試</b>框架

    光伏智慧運(yùn)維系統(tǒng)電站自己說話和思考

    出錯(cuò)。光伏智慧運(yùn)維系統(tǒng)就是給這個(gè)大家族裝上了眼睛、耳朵和大腦,它能自己說話和思考,管理變得更輕松、更聰明。 ?????? 一、它是什么? ?????? 光伏智慧運(yùn)維系統(tǒng)就像一個(gè)智能管家,通過安裝在電站里的傳感器、攝像頭、數(shù)據(jù)
    的頭像 發(fā)表于 03-27 17:01 ?795次閱讀
    光伏智慧運(yùn)維系統(tǒng)<b class='flag-5'>讓</b>電站自己說話和思考