日韩免费无码无删视频,AV特黄色电影久色网站

以下文章來(lái)源于CodeFuse，作者CodeFuse

為應(yīng)對(duì)真實(shí) Web 環(huán)境的非結(jié)構(gòu)化復(fù)雜性、時(shí)序不穩(wěn)定性與交互隱式邏輯等挑戰(zhàn)，螞蟻集團(tuán)全模態(tài)代碼算法團(tuán)隊(duì)提出了一套結(jié)合了多任務(wù)微調(diào)、在線強(qiáng)化學(xué)習(xí)與模塊化協(xié)作的綜合解決方案：OpAgent。

OpAgent 通過(guò)層次化多任務(wù)微調(diào) (MT-SFT) 構(gòu)建具備規(guī)劃、行動(dòng)和定位能力的視覺(jué)語(yǔ)言模型（VLM）基座；繼而，在自建的在線交互環(huán)境中，利用創(chuàng)新的混合獎(jiǎng)勵(lì)機(jī)制進(jìn)行在線強(qiáng)化學(xué)習(xí)（Online RL），有效緩解了離線訓(xùn)練帶來(lái)的分布偏移問(wèn)題；最后，通過(guò)一個(gè)包含規(guī)劃器、定位器、反思器和總結(jié)器的模塊化智能體架構(gòu)，實(shí)現(xiàn)對(duì)復(fù)雜長(zhǎng)時(shí)程任務(wù)的魯棒執(zhí)行與自我修正。

在權(quán)威 Web 智能體評(píng)測(cè)基準(zhǔn) WebArena 上，OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜單第一的 SOTA 成績(jī)。

GitHub:https://github.com/codefuse-ai/OpAgent

Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B

Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf

一、背景與挑戰(zhàn)

自主Web智能體旨在模擬人類(lèi)在圖形用戶(hù)界面（ GUI ）上執(zhí)行任務(wù)，其在自動(dòng)化測(cè)試、數(shù)據(jù)采集、智能助理等領(lǐng)域具有廣闊應(yīng)用前景。然而，相較于 PC 或移動(dòng)端環(huán)境，Web 環(huán)境呈現(xiàn)出獨(dú)特的挑戰(zhàn)：

非結(jié)構(gòu)化復(fù)雜性：網(wǎng)頁(yè)的 DOM 樹(shù)結(jié)構(gòu)龐大且充滿(mǎn)噪聲，傳統(tǒng)基于 HTML 或 DOM 解析的方法難以有效提取關(guān)鍵信息，容易被冗余內(nèi)容干擾。

時(shí)序不穩(wěn)定性：網(wǎng)頁(yè)內(nèi)容是動(dòng)態(tài)的，異步加載、實(shí)時(shí)更新和臨時(shí)性元素（如彈窗）使得環(huán)境狀態(tài)頻繁變化。依賴(lài)靜態(tài)離線數(shù)據(jù)集訓(xùn)練的模型在部署于真實(shí)動(dòng)態(tài)環(huán)境時(shí)，會(huì)面臨嚴(yán)重的分布偏移( Distributional Shift ）問(wèn)題。

交互的隱式邏輯：許多 Web 交互（如懸停觸發(fā)菜單）依賴(lài)實(shí)時(shí)的視覺(jué)反饋來(lái)確認(rèn)操作的成功與否，這種閉環(huán)交互邏輯是離線學(xué)習(xí)范式無(wú)法有效建模的。

為應(yīng)對(duì)上述挑戰(zhàn)，我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了 OpAgent 框架，其核心在于從依賴(lài)靜態(tài)數(shù)據(jù)向與真實(shí)環(huán)境動(dòng)態(tài)交互的范式轉(zhuǎn)變。

二、OpAgent技術(shù)框架

OpAgent 的整體設(shè)計(jì)遵循一個(gè)分階段的優(yōu)化路徑：首先通過(guò)多任務(wù)監(jiān)督微調(diào)（ MT-SFT ）為模型注入基礎(chǔ)的 Web 交互能力，然后通過(guò)在線強(qiáng)化學(xué)習(xí)（ Online RL ）在真實(shí)環(huán)境中對(duì)策略進(jìn)行迭代優(yōu)化，最終在推理階段利用模塊化智能體架構(gòu)（ Agentic Architecture ）執(zhí)行復(fù)雜任務(wù)。

2.1 層次化多任務(wù)微調(diào) (Hierarchical Multi-Task Fine-tuning)

為構(gòu)建一個(gè)強(qiáng)大的視覺(jué)語(yǔ)言模型（ VLM ）基座，我們首先摒棄了對(duì)脆弱的 HTML 文本解析的依賴(lài)，轉(zhuǎn)而讓模型直接從視覺(jué)截圖（ Screenshot ）中感知和理解頁(yè)面布局。我們將 Web 智能體的基礎(chǔ)能力分解為三個(gè)維度：

規(guī)劃 ( Planning )：預(yù)測(cè)交互行為將導(dǎo)致的頁(yè)面狀態(tài)變遷。

行動(dòng) ( Acting )：基于當(dāng)前頁(yè)面狀態(tài)，決策下一步所需執(zhí)行的操作。

定位 ( Grounding )：在視覺(jué)上精確定位執(zhí)行操作的UI元素坐標(biāo)。

我們整合了包括 Mind2Web 、Aguvis 、UGround 在內(nèi)的多個(gè)領(lǐng)域數(shù)據(jù)集，分別對(duì)上述三種能力進(jìn)行訓(xùn)練。為解決不同數(shù)據(jù)集樣本量級(jí)差異巨大（例如，百萬(wàn)級(jí) vs. 千級(jí)）可能導(dǎo)致的梯度主導(dǎo)問(wèn)題，我們引入了基于有效樣本數(shù) (Effective Number of Samples)的加權(quán)策略，動(dòng)態(tài)調(diào)整各任務(wù)在訓(xùn)練中的損失權(quán)重，確保模型在所有基礎(chǔ)能力上得到均衡發(fā)展。

2.2 真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí) ( Online Agentic RL in the Wild )

在線學(xué)習(xí)是解決分布偏移問(wèn)題的關(guān)鍵。為此，我們構(gòu)建了一套支持在真實(shí) Web 環(huán)境中進(jìn)行大規(guī)模在線強(qiáng)化學(xué)習(xí)的系統(tǒng)。

1. 四層RL基礎(chǔ)設(shè)施：該系統(tǒng)分為決策層、執(zhí)行層、基礎(chǔ)設(shè)施層和環(huán)境層。VLM 代理在決策層生成動(dòng)作，通過(guò) Playwright 引擎在執(zhí)行層被解析并分發(fā)至分布式瀏覽器集群，與環(huán)境層中的真實(shí)網(wǎng)站（包括自部署的 WebArena 環(huán)境）進(jìn)行交互，最終將包含截圖和 DOM 的觀測(cè)數(shù)據(jù)反饋回決策層，形成一個(gè)完整的閉環(huán)交互與數(shù)據(jù)采集流程。

2. 混合獎(jiǎng)勵(lì)機(jī)制 ( Hybrid Reward Mechanism )：在沒(méi)有真值（ Ground-truth ）軌跡的真實(shí)環(huán)境中，如何為智能體的探索行為提供有效監(jiān)督信號(hào)至關(guān)重要。我們?cè)O(shè)計(jì)了一種混合獎(jiǎng)勵(lì)機(jī)制：

基于規(guī)則的決策樹(shù) ( RDT ) 進(jìn)行過(guò)程監(jiān)督：為智能體的每一步提供即時(shí)反饋。該機(jī)制通過(guò)一系列規(guī)則判斷動(dòng)作的有效性，如是否產(chǎn)生頁(yè)面視覺(jué)變化、是否點(diǎn)擊在可交互元素上等，對(duì)無(wú)效或冗余的動(dòng)作給予懲罰。

基于 VLM 的 WebJudge 進(jìn)行結(jié)果評(píng)估：在一條軌跡（ trajectory ）結(jié)束后，引入一個(gè)強(qiáng)大的 VLM 評(píng)估器 WebJudge ，從任務(wù)完成度、動(dòng)作有效性和路徑效率三個(gè)維度對(duì)整個(gè)軌跡進(jìn)行綜合評(píng)分，作為最終的稀疏獎(jiǎng)勵(lì)信號(hào)。

這種結(jié)合了稠密過(guò)程獎(jiǎng)勵(lì)和稀疏結(jié)果獎(jiǎng)勵(lì)的機(jī)制，為模型在真實(shí)環(huán)境中的策略?xún)?yōu)化提供了穩(wěn)定且全面的監(jiān)督。

2.3 Operator Agentic 模塊化智能體架構(gòu)

對(duì)于長(zhǎng)時(shí)程、多步驟的復(fù)雜任務(wù)，單一模型的決策能力有限。我們因此設(shè)計(jì)了一個(gè)包含四個(gè)專(zhuān)業(yè)角色的模塊化協(xié)作架構(gòu)，以提升任務(wù)執(zhí)行的魯棒性和成功率。

模塊	核心職責(zé)	主要輸出
Planner 規(guī)劃器	任務(wù)分解與策略制定	語(yǔ)義化的步驟指令
Grounder 定位器	將語(yǔ)義指令映射到UI坐標(biāo)	標(biāo)準(zhǔn)化的工具調(diào)用（Tool Call）
Reflector 反思器	驗(yàn)證動(dòng)作效果，監(jiān)控任務(wù)進(jìn)展	反思信號(hào)與中間筆記
Summarizer 總結(jié)器	綜合軌跡信息，生成最終答案	整合后的最終答案

該架構(gòu)通過(guò)一個(gè)“規(guī)劃-執(zhí)行-反思”的迭代循環(huán)運(yùn)作：Planner 根據(jù)全局目標(biāo)和當(dāng)前狀態(tài)生成高層指令，Grounder 將其翻譯為具體動(dòng)作并執(zhí)行，Reflector 在動(dòng)作后評(píng)估狀態(tài)變化并判斷是否需要重新規(guī)劃。這種機(jī)制實(shí)現(xiàn)了有效的錯(cuò)誤檢測(cè)與自我修正。

三、實(shí)驗(yàn)與結(jié)果

我們?cè)诙鄠€(gè)基準(zhǔn)上對(duì) OpAgent 框架的各組件進(jìn)行了充分評(píng)估。

單模型性能：

經(jīng)過(guò)在線RL優(yōu)化的單模型（ Qwen3-VL-32B-Thinking + RL-HybridReward-Zero ）在 WebArena 上取得了 38.1% 的成功率（ Pass@5 ），顯著超越了原始基線模型（ 27.4% ）以及其他采用類(lèi)似 Test-Time Training ( TTT ) 策略的方法。

Pass@K 分析：

對(duì)比 RL 優(yōu)化前后的模型在不同 Pass@K 下的表現(xiàn)，可以看到隨著嘗試次數(shù) K 的增加，RL優(yōu)化后模型的性能優(yōu)勢(shì)愈發(fā)明顯，Pass@5 的絕對(duì)提升達(dá)到 10.66% 。這表明在線強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了模型決策的魯棒性。

Agentic Architecture 性能：

最終，集成了所有優(yōu)化的 OpAgent 整體框架（使用 Gemini-3-Pro 作為部分模塊后端，Qwen2.5-VL-MFT 作為 Grounder ），在 WebArena 上達(dá)到了 71.6% 的成功率，刷新了該基準(zhǔn)的 SOTA 記錄，并登頂排行榜。

四、總結(jié)與展望

本文介紹了螞蟻全模態(tài)代碼算法團(tuán)隊(duì)在 Web 智能體方向的最新研究成果 OpAgent 。通過(guò)在多任務(wù)微調(diào)、真實(shí)環(huán)境在線強(qiáng)化學(xué)習(xí)以及模塊化智能體架構(gòu)等方面的探索，我們顯著提升了 Web 智能體在復(fù)雜動(dòng)態(tài)環(huán)境中的任務(wù)執(zhí)行能力，并在 WebArena 基準(zhǔn)上取得了 SOTA 性能。

當(dāng)前工作在實(shí)現(xiàn)高性能的同時(shí)，仍一定程度上依賴(lài)于精細(xì)的提示工程和多智能體的復(fù)雜編排。未來(lái)的研究方向?qū)ㄌ嵘龁文Ｐ蛢?nèi)在的探索與泛化能力，以期減少對(duì)復(fù)雜框架的依賴(lài)，實(shí)現(xiàn)更加通用和高效的自主智能體。

關(guān)于我們

我們是螞蟻集團(tuán)智能平臺(tái)工程的全模態(tài)代碼算法團(tuán)隊(duì)。團(tuán)隊(duì)成立 3 年以來(lái)，在 ACL、EMNLP、ICLR、NeurIPS、ICML 等頂級(jí)會(huì)議發(fā)表論文 20 余篇，兩次獲得螞蟻技術(shù)最高獎(jiǎng) T-Star ，1 次螞蟻集團(tuán)最高獎(jiǎng) SuperMA ，我們研發(fā)的 CodeFuse 項(xiàng)目連續(xù)兩年蟬聯(lián)學(xué)術(shù)開(kāi)源先鋒項(xiàng)目。

團(tuán)隊(duì)常年招聘研究型實(shí)習(xí)生，有志于 NLP、大模型、多模態(tài)、圖神經(jīng)網(wǎng)絡(luò)的同學(xué)歡迎聯(lián)系 hyu.hugo@antgroup.com，期待與你一起，探索AI的無(wú)限可能！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Web

Web

+關(guān)注

關(guān)注
2

文章
1307

瀏覽量
74620
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
272

瀏覽量
11976
螞蟻集團(tuán)

螞蟻集團(tuán)

+關(guān)注

關(guān)注
0

文章
108

瀏覽量
4639