UIPro: Unleashing Superior Interaction Capability For GUI Agents (ICCV 2025)

研究介绍

我们提出了UIPro,在大规模统一数据之上训练得到的一种新型的通用GUI智能体。为了解决现有GUI智能体在有限场景、数据量不足和异构动作空间等方面面临的挑战,我们首先整理了一个包含约2000万个GUI理解任务的综合数据集,用于预训练,从而赋予智能体强大的GUI元素理解(尤其是元素定位)能力。随后,我们构建了一个多平台统一的动作空间来整合不同来源(如:移动设备、桌面软件以及网页浏览)的GUI智能体任务数据集,有助于智能体在多平台迁移和运用GUI操控能力。

实验结果表明,UIPro在多个GUI任务基准测试中表现出色:在移动设备控制(如AndroidControl)和网页浏览器控制(如:Mind2Web)等任务中均展现出卓越的性能,显著超越了现有智方法,包括使用闭源API的智能体和面向GUI场景微调的专家VLM。此外,消融实验表明,本文提出的数据统一和动作空间统一都能极大地发挥数据的规模化效益,也帮助智能体打通不同数字平台之间的操控壁垒。

得益于训练任务统一以及动作空间统一的优势,UIPro数字智能体实现了卓越的多平台操控能力,帮助用户在数字设备上高效完成任务(比如:在亚马逊搜索商品信息)

Updated: 2025-08-24 — 11:26 下午

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Zhaoxiang Zhang © 2020