研究介绍:
我们提出了UIPro,在大规模统一数据之上训练得到的一种新型的通用GUI智能体。为了解决现有GUI智能体在有限场景、数据量不足和异构动作空间等方面面临的挑战,我们首先整理了一个包含约2000万个GUI理解任务的综合数据集,用于预训练,从而赋予智能体强大的GUI元素理解(尤其是元素定位)能力。随后,我们构建了一个多平台统一的动作空间来整合不同来源(如:移动设备、桌面软件以及网页浏览)的GUI智能体任务数据集,有助于智能体在多平台迁移和运用GUI操控能力。
实验结果表明,UIPro在多个GUI任务基准测试中表现出色:在移动设备控制(如AndroidControl)和网页浏览器控制(如:Mind2Web)等任务中均展现出卓越的性能,显著超越了现有智方法,包括使用闭源API的智能体和面向GUI场景微调的专家VLM。此外,消融实验表明,本文提出的数据统一和动作空间统一都能极大地发挥数据的规模化效益,也帮助智能体打通不同数字平台之间的操控壁垒。

