在高質量推理軌跡構建與后訓練方面,WebWatcher采用了Action-Observation驅動的軌跡生成方法,通過收集真實的多工具交互軌跡并進行監督微調(SFT),讓模型在訓練初期快速掌握多模態ReAct式推理和工具調用的基本模式。隨后,模型進入強化學習階段,通過GRPO進一步提升多模態Agent在復雜環境下的決策能力。
為了全面驗證WebWatcher的能力,研究團隊提出了BrowseComp-VL,這是BrowseComp在視覺-語言任務上的擴展版本,旨在逼近人類專家的跨模態研究任務難度。在多輪嚴格評測中,WebWatcher在復雜推理、信息檢索、知識整合以及聚合類信息尋優等任務上全面領先于當前主流的開源與閉源多模態大模型。
具體來說,在人類終極考試(Humanity’s Last Exam,HLE-VL)這一多步復雜推理基準上,WebWatcher以13.6%的Pass@1分數一舉奪魁,大幅領先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。在更貼近真實多模態搜索的MMSearch評測中,WebWatcher的Pass@1得分高達55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅領先。在LiveVQA評測中,WebWatcher的Pass@1成績達到58.7%,領先于其他主流模型。在最具綜合挑戰的BrowseComp-VL基準上,WebWatcher以27.0%的平均得分(Pass@1)遙遙領先,成績提升超過一倍。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。