當(dāng)我們面對(duì)復(fù)雜的網(wǎng)頁任務(wù)時(shí),比如在電商網(wǎng)站上找到最便宜的商品,或者在論壇里找到特定的帖子,往往需要進(jìn)行大量的點(diǎn)擊、搜索和篩選操作。現(xiàn)在,一個(gè)名為Recon-Act的智能系統(tǒng)正在改變這種狀況。這項(xiàng)由AWorld團(tuán)隊(duì)的何凱文、王志偉、莊晨宇和顧金杰等研究人員開發(fā)的成果,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.21072v1),為我們展示了一種全新的瀏覽器操作方式。
說起Recon-Act,我們可以把它想象成一個(gè)專業(yè)的網(wǎng)頁操作團(tuán)隊(duì)。就像一個(gè)建筑工地需要不同職能的工人一樣,這個(gè)系統(tǒng)也分為兩個(gè)核心團(tuán)隊(duì):偵察隊(duì)和行動(dòng)隊(duì)。偵察隊(duì)就像是工地上的勘探員,他們會(huì)先仔細(xì)觀察環(huán)境,分析問題,然后制定工具和策略。行動(dòng)隊(duì)則像是實(shí)際施工的工人,他們使用偵察隊(duì)提供的工具來完成具體的任務(wù)。
這個(gè)系統(tǒng)的最大特點(diǎn)是它能夠"自我進(jìn)化"。當(dāng)系統(tǒng)在某個(gè)網(wǎng)站上遇到困難時(shí),偵察隊(duì)會(huì)分析失敗的原因,然后開發(fā)出專門的工具來解決這類問題。這些工具會(huì)被存儲(chǔ)起來,供后續(xù)遇到類似情況時(shí)使用。就好比一個(gè)經(jīng)驗(yàn)豐富的工匠,每次遇到新的問題都會(huì)制作一個(gè)新工具,隨著時(shí)間推移,工具箱里的工具越來越多,解決問題的能力也越來越強(qiáng)。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)六級(jí)發(fā)展路線圖來逐步實(shí)現(xiàn)這個(gè)系統(tǒng)。目前他們已經(jīng)達(dá)到了第三級(jí),在這個(gè)級(jí)別下,除了分析師和工具管理員仍需要人工干預(yù)外,其他組件都可以由人工智能模型自動(dòng)完成。在著名的VisualWebArena數(shù)據(jù)集上,Recon-Act取得了36.48%的成功率,超越了之前的所有自動(dòng)化系統(tǒng),雖然距離人類88.7%的表現(xiàn)還有差距,但已經(jīng)是一個(gè)重大進(jìn)步。
一、偵察隊(duì)的工作原理
在Recon-Act系統(tǒng)中,偵察隊(duì)扮演著至關(guān)重要的角色。我們可以把偵察隊(duì)比作一個(gè)專業(yè)的調(diào)研團(tuán)隊(duì),他們的工作就是深入了解問題的本質(zhì),然后為解決問題提供有針對(duì)性的方案。
偵察隊(duì)由兩個(gè)核心成員組成:分析師和程序員。分析師就像是一個(gè)經(jīng)驗(yàn)豐富的偵探,當(dāng)系統(tǒng)在執(zhí)行任務(wù)時(shí)遇到失敗,分析師會(huì)仔細(xì)對(duì)比成功和失敗的操作軌跡,找出問題的根源。比如,當(dāng)系統(tǒng)在購物網(wǎng)站上無法正確排序商品價(jià)格時(shí),分析師會(huì)分析是因?yàn)檎也坏脚判虬粹o,還是因?yàn)辄c(diǎn)擊了錯(cuò)誤的位置,或者是因?yàn)榫W(wǎng)頁結(jié)構(gòu)與預(yù)期不符。
程序員則負(fù)責(zé)將分析師的發(fā)現(xiàn)轉(zhuǎn)化為實(shí)際可用的工具。這些工具被稱為"通用工具",可以是簡(jiǎn)單的提示信息,也可以是復(fù)雜的自動(dòng)化程序。繼續(xù)以購物網(wǎng)站為例,如果分析師發(fā)現(xiàn)問題在于商品圖片太小導(dǎo)致系統(tǒng)無法準(zhǔn)確識(shí)別,程序員就會(huì)開發(fā)一個(gè)工具,自動(dòng)將網(wǎng)頁從列表視圖切換到網(wǎng)格視圖,讓圖片變大,提高識(shí)別準(zhǔn)確率。
偵察隊(duì)還配備了一套基礎(chǔ)的偵察工具包,包括獲取網(wǎng)頁鏈接、截取圖片、解析頁面結(jié)構(gòu)等功能。這些工具就像是偵探手中的放大鏡和指紋識(shí)別器,幫助他們更好地理解網(wǎng)頁環(huán)境。當(dāng)遇到復(fù)雜問題時(shí),偵察隊(duì)會(huì)使用這些基礎(chǔ)工具進(jìn)行更深入的探索,收集更多信息來指導(dǎo)后續(xù)的工具開發(fā)。
整個(gè)偵察過程是一個(gè)循環(huán)往復(fù)的學(xué)習(xí)過程。系統(tǒng)會(huì)不斷執(zhí)行任務(wù),收集成功和失敗的案例,然后通過對(duì)比分析來發(fā)現(xiàn)新的解決方案。每當(dāng)開發(fā)出新工具,系統(tǒng)就會(huì)在訓(xùn)練集上重新測(cè)試,驗(yàn)證工具的效果。如果工具能夠提高成功率,就會(huì)被正式注冊(cè)到工具庫中,供后續(xù)任務(wù)使用。
二、行動(dòng)隊(duì)的協(xié)作機(jī)制
行動(dòng)隊(duì)是Recon-Act系統(tǒng)中負(fù)責(zé)實(shí)際執(zhí)行任務(wù)的團(tuán)隊(duì),可以把它想象成一個(gè)精密的施工隊(duì)伍。這個(gè)隊(duì)伍有三個(gè)關(guān)鍵角色:項(xiàng)目經(jīng)理、工具管理員和執(zhí)行工程師。
項(xiàng)目經(jīng)理是整個(gè)行動(dòng)隊(duì)的指揮中樞,就像建筑工地上的工頭一樣。當(dāng)接到用戶的任務(wù)時(shí),項(xiàng)目經(jīng)理會(huì)仔細(xì)分析當(dāng)前的網(wǎng)頁環(huán)境和任務(wù)要求,然后決定使用哪種工具或者調(diào)用哪個(gè)團(tuán)隊(duì)成員。比如,當(dāng)用戶要求在Reddit論壇上給某個(gè)帖子點(diǎn)贊時(shí),項(xiàng)目經(jīng)理會(huì)識(shí)別出這是一個(gè)投票任務(wù),然后選擇合適的投票工具。
工具管理員扮演著庫房管理員的角色,負(fù)責(zé)維護(hù)整個(gè)工具庫。當(dāng)偵察隊(duì)開發(fā)出新工具時(shí),工具管理員會(huì)決定是添加全新工具還是更新現(xiàn)有工具。這個(gè)決策過程需要考慮工具的功能重疊性和兼容性。為了避免工具之間的沖突,工具管理員會(huì)為每個(gè)工具添加條件邏輯,確保它們能在適當(dāng)?shù)那闆r下被調(diào)用,而不會(huì)干擾其他工具的正常運(yùn)行。
執(zhí)行工程師是行動(dòng)隊(duì)的最后一道保障,就像是一個(gè)全能的維修工。當(dāng)其他工具都無法處理當(dāng)前情況時(shí),執(zhí)行工程師會(huì)接手任務(wù),生成基本的操作指令。這種設(shè)計(jì)確保了系統(tǒng)始終能夠給出某種回應(yīng),不會(huì)因?yàn)槿狈线m的工具而完全卡住。
系統(tǒng)中的工具分為兩種類型:提示型工具和決策型工具。提示型工具類似于經(jīng)驗(yàn)豐富的顧問,它們會(huì)向執(zhí)行工程師提供建議和指導(dǎo),但最終的決策仍由執(zhí)行工程師做出。決策型工具則更像是專業(yè)的自動(dòng)化設(shè)備,它們會(huì)直接生成具體的操作指令,系統(tǒng)會(huì)立即執(zhí)行這些指令而無需進(jìn)一步處理。
在執(zhí)行任務(wù)時(shí),整個(gè)流程就像是一條高效的生產(chǎn)線。項(xiàng)目經(jīng)理接收任務(wù)后,通過工具路由器選擇合適的工具。如果選擇的是提示型工具,系統(tǒng)會(huì)先運(yùn)行該工具獲取建議,然后讓執(zhí)行工程師基于這些建議生成最終操作。如果選擇的是決策型工具,系統(tǒng)會(huì)直接執(zhí)行工具輸出的指令。每次操作后,瀏覽器環(huán)境會(huì)更新,為下一步操作提供新的上下文信息。
三、工具生成與進(jìn)化機(jī)制
Recon-Act系統(tǒng)最令人印象深刻的特性是它的自我進(jìn)化能力,這個(gè)過程就像是一個(gè)工匠不斷改進(jìn)自己的工藝和工具一樣。整個(gè)進(jìn)化過程建立在一個(gè)閉環(huán)的學(xué)習(xí)機(jī)制之上,數(shù)據(jù)、工具、行動(dòng)和反饋形成了一個(gè)完整的循環(huán)。
系統(tǒng)的進(jìn)化從對(duì)比學(xué)習(xí)開始。當(dāng)行動(dòng)隊(duì)執(zhí)行任務(wù)失敗時(shí),偵察隊(duì)會(huì)將失敗的操作軌跡與成功的操作軌跡進(jìn)行詳細(xì)對(duì)比。這種對(duì)比不是簡(jiǎn)單的表面比較,而是深入到每個(gè)操作步驟的分析。比如,在分類廣告網(wǎng)站上搜索商品時(shí),如果系統(tǒng)無法正確按價(jià)格排序,分析師會(huì)發(fā)現(xiàn)成功軌跡中使用了特定的排序功能,而失敗軌跡中要么沒有找到這個(gè)功能,要么使用了錯(cuò)誤的方法。
基于這種對(duì)比分析,系統(tǒng)會(huì)抽象出通用的解決方案。這些解決方案被統(tǒng)一封裝為"通用工具",可能是簡(jiǎn)單的操作提示,也可能是復(fù)雜的自動(dòng)化程序。所有工具都遵循統(tǒng)一的接口標(biāo)準(zhǔn):它們接受一組標(biāo)準(zhǔn)化的參數(shù),返回字符串格式的結(jié)果。這種設(shè)計(jì)避免了為每個(gè)任務(wù)單獨(dú)定制參數(shù)的復(fù)雜性,大大簡(jiǎn)化了系統(tǒng)的維護(hù)工作。
工具的注冊(cè)過程體現(xiàn)了系統(tǒng)的智能化特點(diǎn)。當(dāng)新工具被開發(fā)出來時(shí),工具管理員會(huì)評(píng)估它與現(xiàn)有工具的關(guān)系。如果功能相似,系統(tǒng)會(huì)選擇更新現(xiàn)有工具而不是創(chuàng)建新工具。更新過程使用條件邏輯來擴(kuò)展工具功能,確保新功能不會(huì)影響工具在其他場(chǎng)景下的表現(xiàn)。
研究團(tuán)隊(duì)目前已經(jīng)開發(fā)出11個(gè)專用工具,涵蓋了三個(gè)主要網(wǎng)站類型的典型操作。在分類廣告網(wǎng)站上,有專門的價(jià)格排序工具;在Reddit論壇上,有投票工具、作者查找工具和子版塊導(dǎo)航工具;在購物網(wǎng)站上,有類別導(dǎo)航工具、圖片搜索工具和價(jià)格排序工具。每個(gè)工具都針對(duì)特定網(wǎng)站的特殊需求進(jìn)行了優(yōu)化。
值得注意的是,系統(tǒng)在開發(fā)工具時(shí)會(huì)特別考慮網(wǎng)站的獨(dú)特性。不同網(wǎng)站有不同的頁面結(jié)構(gòu)和交互方式,同樣的功能在不同網(wǎng)站上可能需要完全不同的實(shí)現(xiàn)方法。因此,每個(gè)工具都明確標(biāo)注了它適用的網(wǎng)站類型和使用條件,避免在錯(cuò)誤的環(huán)境中被調(diào)用。
整個(gè)進(jìn)化過程是增量式的。系統(tǒng)不會(huì)一次性開發(fā)所有需要的工具,而是根據(jù)遇到的問題逐步擴(kuò)展工具庫。這種方式確保了每個(gè)工具都是針對(duì)實(shí)際需求開發(fā)的,避免了不必要的復(fù)雜性。隨著系統(tǒng)處理的任務(wù)類型增多,工具庫也會(huì)相應(yīng)地豐富和完善。
四、實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
在VisualWebArena這個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中,Recon-Act展現(xiàn)出了令人矚目的性能。這個(gè)測(cè)試包含約910個(gè)查詢?nèi)蝿?wù),涵蓋分類廣告、購物網(wǎng)站和Reddit論壇三個(gè)主要領(lǐng)域,要求系統(tǒng)能夠理解視覺內(nèi)容并執(zhí)行復(fù)雜的多步驟操作。
從整體表現(xiàn)來看,Recon-Act達(dá)到了36.48%的成功率,超越了之前最好的自動(dòng)化系統(tǒng)2.74個(gè)百分點(diǎn)。這個(gè)提升看似不大,但在這樣一個(gè)高難度的測(cè)試中,每一個(gè)百分點(diǎn)的提升都代表著巨大的技術(shù)進(jìn)步。相比于早期的方法,Recon-Act的改進(jìn)幅度通常超過10%,顯示出其設(shè)計(jì)理念的優(yōu)越性。
在不同領(lǐng)域的表現(xiàn)上,Recon-Act展現(xiàn)出了均衡的能力。在購物網(wǎng)站任務(wù)中,系統(tǒng)達(dá)到了39.27%的成功率,比之前的最佳成果提高了6.97%,這是一個(gè)相當(dāng)顯著的進(jìn)步。在分類廣告和Reddit論壇任務(wù)中,雖然略低于當(dāng)前最好的系統(tǒng),但差距很小,分別只有1.68%和1.56%。這種均衡的表現(xiàn)表明,Recon-Act的設(shè)計(jì)具有良好的通用性,不會(huì)在某個(gè)特定領(lǐng)域特別弱勢(shì)。
從執(zhí)行效率的角度來看,Recon-Act展現(xiàn)出了穩(wěn)定的操作風(fēng)格。系統(tǒng)平均需要4.9步完成任務(wù),這個(gè)數(shù)字處于合理范圍內(nèi),既不會(huì)因?yàn)椴襟E過少而顯得草率,也不會(huì)因?yàn)椴襟E過多而顯得低效。更重要的是,系統(tǒng)很少需要進(jìn)行自我糾錯(cuò)操作,說明它的決策質(zhì)量較高,大多數(shù)操作都是有效的。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了他們的訓(xùn)練方法的高效性。與一些依賴大規(guī)模隨機(jī)探索的方法不同,Recon-Act使用了精心策劃的小規(guī)模訓(xùn)練集,每個(gè)領(lǐng)域不超過10個(gè)示例。這種方法避免了數(shù)據(jù)冗余問題,同時(shí)確保了訓(xùn)練質(zhì)量。研究團(tuán)隊(duì)認(rèn)為,隨機(jī)漫步式的探索往往會(huì)產(chǎn)生大量重復(fù)和低質(zhì)量的數(shù)據(jù),這與他們追求效率和精確性的目標(biāo)不符。
在系統(tǒng)架構(gòu)方面,當(dāng)前的Level 3配置顯示出了人機(jī)協(xié)作的有效性。雖然分析師和工具管理員仍需要人工參與,但程序員、項(xiàng)目經(jīng)理和執(zhí)行工程師已經(jīng)可以由大型語言模型驅(qū)動(dòng)。這種混合架構(gòu)在保證系統(tǒng)性能的同時(shí),也為未來的完全自動(dòng)化奠定了基礎(chǔ)。
值得注意的是,與人類88.7%的表現(xiàn)相比,Recon-Act仍有很大的改進(jìn)空間。這個(gè)差距反映了當(dāng)前人工智能系統(tǒng)在理解復(fù)雜視覺內(nèi)容和執(zhí)行多步驟推理方面的局限性。不過,考慮到這是一個(gè)全新的研究領(lǐng)域,Recon-Act的表現(xiàn)已經(jīng)為未來的發(fā)展指明了方向。