
这项由清华大学与腾讯混元息争股东的探求,于2026年6月以预印本表情发布,论文编号为arXiv:2606.29705,感酷好酷好的读者可通过该编号查询完好意思原文。
当你大开电脑,想让一个AI助手帮你完成"在某个网站上搜索商品、加入购物车、然后结账"这样的任务时,你其实是在和一类被称为"GUI智能体"的系统打交谈。GUI是"图形用户界面"的缩写,浅薄说即是你每天看到的那些有按钮、菜单、输入框的电脑或手机屏幕。GUI智能体就像一个能看懂屏幕、会动鼠标、会敲键盘的数字助手,替你完成各式操作任务。
相关词,锻练这样一个助手有个巨大的贫苦:它需要多数"有东谈主手把手教过"的数据。就像锻练一个新职工,你不仅要给他看公司的操作手册,还要给他看每一步应该点那边、输入什么、若何判断得胜——这些细节皆需要真东谈主去标注,耗时耗力且代价昂贵。正因如斯,现存的GUI智能体通常只在特定类型的软件上施展可以,换个新平台粗略新场景就会兄弟无措,还时常搞不了了屏幕上某个轻微按钮究竟在那边。
清华大学的探求团队换了一个念念路:既然互联网上每天皆有海量的网页截图,手机上也有多数的应用界面,这些东西自己就袪除着丰富的"点击信号"——哪个地方可以点,哪个地方可以输入笔墨,哪个地方有下拉菜单——何不径直哄骗这些自然存在的信号,在不需要任何东谈主工标注的前提下,让AI从中学习?他们把这套方法叫作念"GUICrafter",意为"界面工艺师",并通过一系列全心设想的锻练经由,让这个系统在只用了顶尖竞争敌手约千分之一数据量的情况下,齐全了相当以致更优的性能施展。
一、为什么锻练GUI助手这样难?
要连系这项探求惩处了什么问题,得先昭彰锻练一个GUI智能体为什么那么资料。
以往的方法依赖两种东西:一是东谈主工标注的任务数据,比如"找到页面上的搜索框,输入'率领鞋',然后点击搜索按钮"这样一步步的操作记载;二是多数各样化的屏幕截图,让AI见过满盈多的界面立场。第一种数据需要真东谈主坐下来一条一条地记号,第二种数据自然容易获取,但截图自己并不会告诉AI"应该点那边"。
这导致了两个难办的问题。第一个是"视觉定位智商弱":AI通常看不准屏幕上某个小按钮的确切位置,把鼠标点到空缺处粗略掌握的区域,任务就此失败。第二个是"泛化智商差":用购物网站数据锻练出来的助手,遭受银行网站粗略医疗类应用就握瞎,因为它从没见过那种界面立场。
归根结底,这两个问题皆指向并吞个根源——高质料、各样化的锻练数据太难采集了。业界作念得最佳的系统,比如被称为UI-TARS的模子,靠的是高达1840万条东谈主工标注的操作轨迹数据。这种领域的数据采集,对绝大多数探求团队来说险些是弗成复制的。
GUICrafter的中枢知悉恰是在这里:与其花多数东谈主力去标注"这个任务应该点那边",不如径直问网页和应用自己——"你这里有哪些地方是可以交互的?"
二、让网页我方"语言":无标注数据的采集之谈
探求团队作念了一件听起来很浅薄、施行上颇为精妙的事情:他们让圭臬自动去"爬"多数的确网页,同期借助浏览器器具,自动识别出每个网页上哪些元素是可以点击的、哪些是可以输入笔墨的、哪些是可以大开下拉菜单选定选项的。
具体来说,他们从各大热点网站的派别页面开拔,顺着页面上的每一个连系递归地往下爬,就像一棵树从树干蔓延到每一根树枝,最终酿成了一个障翳广博的确网页场景的巨型数据集。这种爬取方式很聪惠,因为的确的GUI操作任务蓝本即是这样——从首页插足,一步步点进子页面,和这个树状结构自然吻合。为了保证数据质料,他们还竖立了一些自动过滤司法,比如优先收录英文网站、剔除有弹窗遮盖的页面等。
对于手机应用界面,探求团队则借助了两个已有的开源数据集:AndroidControl和AITZ。这两个数据集里有多数手机应用的截图,更紧迫的是,它们的无龙套树(一种描写界面元素的结构化数据)里记载了每个界面元素的类型——哪些可以点击、哪些可以勾选、哪些可以裁剪输入。探求团队十足不使用这些数据集里的东谈主工标注操作任务,只用这些自动记载下来的交互元素信息。
通过这个过程,探求团队为网页平台蓄积了足足50万条弱监督样本,为出动拓荒平台蓄积了13.6万条样本。这些数据十足不需要任何东谈主工介入,资本接近于零。
三、"元任务":用一句通用提示代替千万种具体任务
有了这些自动索取的交互信号之后,探求团队濒临一个新问题:普通的锻练数据会告诉AI"搜索率领鞋"、"查询天气"这样的具体任务,但自动索取的数据只知谈"这里有一个可以点击的按钮"——莫得语义,不知谈这个按钮是干什么用的。
为了惩处这个断层,探求团队发明了"元任务"这个见地。所谓元任务,即是用一句非常轮廓性的提示来代表某一类操作的所有这个词可能场景。以点击动行为例,元任务的描写是:"点击页面上任何可以点击的区域,比如按钮,但不重心空缺处。" 对于输入笔墨,元任务是:"在页面的输入框中输入自便笔墨。" 对于下拉菜单,元任务是:"从页面的下拉菜单中选定自便有用选项。"
这种设想的精妙之处在于:它把无数种具体的任务描写皆抽象成了少数几个通用提示。当AI学会了"找到任何可以点击的地方并点击它",它施行上同期学会了点击搜索按钮、点击购买按钮、点击导航菜单的智商,仅仅还不知谈在特定语境下该点哪一个。这种智商——分辨哪些区域是可交互的、哪些不是——恰是视觉定位智商的中枢所在。
探求团队其后也作念了对比实验,把元任务和用GPT-4o自动生成的具体语义任务作念了比较。阻抑发现,在第一阶段锻练中,元任务的成果如实略逊于有语义的任务,但经过第二阶段的小数高质料数据微调之后,两者的最终性能险些莫得区别。这诠释元任务一经满盈让AI学习到界面连系的中枢智商,而细粒度的语义连系可以用极小数的高质料数据来补充更始。
四、赏罚机制:让AI在"对错响应"中自我进化
有了数据和元任务之后,探求团队选定了一种叫作念"强化学习"的锻练方式。平淡地说,强化学习即是让AI束缚尝试,作念对了给奖励,作念错了不给奖励,AI在反复的尝试与响应中渐渐学会正确的行为——和锻练小狗作念动作的旨趣没什么内容区别。
在GUICrafter的设定中,奖励由几个部分构成。当先是花样奖励:AI的输出必须按照司法的JSON花样来写,包含操作类型、预测位置和可选的输入笔墨,花样十足正确才智得到花样奖励,哪怕有一丝偏差也得零分。这个机制确保AI从一开动就养成措施输出的民风。
其次是操作类型奖励:AI预测的操作类型(点击、输入笔墨、选定菜单)必须和的确情况匹配,不然得零分。这一条保证AI不会乱猜操作方式。
最特地念念的是位置奖励的设想。最浅薄的有蓄意是:只须AI预测的坐标落在职何一个可交互区域内,就给满分。但探求团队发现这样太宽松了——因为一个网页上可能有几十个按钮,应付点一个皆算对,AI就学不到精笃定位的智商。
于是他们选定了一种叫作念"高斯奖励"的有蓄意。可以这样连系:每个可交互元素的中心是"靶心",离靶心越近得分越高,越远得分越低,何况奖励的衰减方式和元素的大小成正比——一个大按钮的奖励衰减得慢,一个小图标的奖励衰减得快。这种设想迫使AI不仅仅"应付点个按钮",而是尽量往可交互元素的中心点击,极地面培育了精笃定位智商。实考据明,这种高斯奖励如实比浅薄的二元奖励成果好,尤其在高难度任务上的上风更彰着。
对于需要输入笔墨的任务,还有一个笔墨相似度奖励:AI输出的笔墨必须和参考谜底有满盈高的词语重迭度,才智得到这部分奖励。
五、两阶段课程:从"简单熟悉"到"精确更始"
GUICrafter的所有这个词这个词锻练过程被设想成两个递进阶段,就像学一门乐器——第一阶段是多数基础熟悉,打好手感和乐感;第二阶段是针对具体曲主张精细排演。
第一阶段叫作念"弱监督GUI预锻练"。在这个阶段,AI面对海量的的确网页和手机应用截图,领受元任务提示,尝试找到并点击对应的可交互元素,然后凭据高斯奖励信号更新我方的参数。所有这个词这个词过程不需要任何东谈主工标注,十足依靠自动索取的交互信号。主实验中使用了网页端的2万条样本和出动端的9600条样本,但探求团队也测试了使用50万条数据的完好意思版块,讲授数据量越大成果越好,且现在还莫得到达性能天花板。
第二阶段叫作念"高质料强化微调"。在这个阶段,探求团队引入了小数经过严格筛选和清洗的东谈主工标注数据。对于网页和桌面平台,他们从Mind2Web数据勾通全心筛选了4966条干净样本,并从GUI-R1-3K数据勾通补充了1744条网页样本和85条桌面样本,最终获取6795条高质料数据。对于出动平台,他们从AMEX数据勾通录取了3200条样本,该数据集以任务描写澄清、操作轨迹标注准确著称。
这批高质料数据的作用是"更始":第一阶段让AI学会了分辨哪些地方可以交互、若何精笃定位;第二阶段通过有语义的的确任务,让AI学会了"在什么情境下该选哪个可交互元素"。两个阶段统筹兼顾,就像厨师先练好刀工(第一阶段),再学菜谱(第二阶段)。
六、数据质料与噪声:现实寰宇数据没那么干净
任何从的确环境自动采集的数据皆弗成能白玉无瑕,探求团队对此也作念了发扬的分析。他们随即抽取了1000条第一阶段的数据进行东谈主工查验,发现其中84.9%的样本是十足正确的,莫得遗漏、重迭或广阔的交互元素。剩下约15%的样本存在各式问题,比如某些元素没被正确识别、范围框有偏差等。
更紧迫的是,他们专门作念了一个实验来测试锻练经由对噪声的鲁棒性:有益把噪声比例从0%调高到15%再到30%,望望模子性能若何变化。阻抑发现,在第一阶段终结时,噪声越多性能如实越差,30%噪声的模子比0%噪声的模子差了约3-5个百分点。然则,经过第二阶段的高质料数据微调后,三种噪声水平的最终性能差距大幅收窄,险些可以忽略不计。这诠释即使第一阶段的锻练数据不够干净,第二阶段的精确更始能有用弥补这个颓势,所有这个词这个词两阶段框架有相当强的抗噪智商。
七、收获单:在六大测试场景中的施展
探求团队在六个不同的基准测试上全面评估了GUICrafter,障翳了网页、桌面应用和出动应用三大平台。
在Mind2Web基准测试上,这个测试模拟的确的网页操作任务,分为"见过的网站但新任务"、"没见过的网站"和"没见过的领域"三个难度子集,全面考验模子的泛化智商。GUICrafter-3B(即3亿参数领域的版块)在三个子集上的平均元素定位准确率达到60.2%,高出了UI-TARS-2B的59.5%。要知谈UI-TARS用了1840万条标注数据,而GUICrafter只用了约2万条弱监督数据加6795条高质料数据,总量不到UI-TARS的千分之一。更值得柔和的是,GUICrafter在"没见过的网站"和"没见过的领域"这两个子集上的上风比在"见过的网站"上更彰着,诠释弱监督预锻练如实给模子带来了更强的举一反三智商。
仅完成第一阶段锻练(不必任何东谈主工标注数据)的GUICrafter,就一经比基础模子Qwen2.5-VL-3B培育了高出12个百分点,这个收获相当于给一个从未经过专科培训的新东谈主作念了多数实习熟悉后的自然进步。
在ScreenSpot-Pro基准测试上,这个测试专门覆按桌面和出动应用中精细界面元素的定位智商,题目难度更高,好多指标元素又小又不彰着。GUICrafter-3B达到了33.5%的平均准确率,比排在第二位的GUI-R1-3B高出约4-5个百分点,也高出了参数目更大的UI-TARS-2B的27.7%。仅第一阶段锻练成带来了高出10个百分点的培育。
在AndroidControl基准测试上,这个测试分为"低难度"和"高难度"两个版块,后者条目更复杂的多步推理。GUICrafter在两个版块上皆高出了其他同等领域的模子。非常值得一提的是,仅完成第一阶段的GUICrafter在AndroidControl-Low上达到了62.35%的门径得胜率,和使用了东谈主工标注数据的GUI-R1-3B不相落魄——这意味着光靠免费的弱监督数据,就能达到有标注竞争敌手的水平。
在AITW零样本测试上,探求团队选定了十足不针对该数据集微调的零样本竖立,覆按模子的跨数据集泛化智商。GUICrafter达到了50.89%的举座门径得胜率,接近于依赖GPT-4V这类更强盛闭源模子的有蓄意,也高出了同等领域的GUI-R1-3B的43.60%。
在OmniACT基准测试上,这个测试障翳网页和桌面两类场景,GUICrafter在网页域的定位准确率为77.21%,在桌面域为82.88%,均高出了GUI-R1-3B。仅第一阶段就带来了网页端18.96%、桌面端30.84%的培育,桌面端的惊东谈主逾越体现了弱监督预锻练对从未见过的界面立场的强盛相宜智商。
在AndroidWorld在线测试上,这个测试在的确Android环境中运行完好意思的多步任务,是最逼近施行使用场景的测试之一。GUICrafter-3B的任务完成率达到25.43%,而GUI-R1-3B惟有14.22%,培育幅度高出11个百分点。
八、细节实验:每个设想选定背后的依据
探求团队作念了几许精熟的对比实验,考据了几个关节设想选定的必要性。
对于元任务是否满盈好,他们对比了四种任务设定:惟有点击元任务(非常简化)、完好意思的三类元任务(论文施行有蓄意)、GPT-4o自动生成的语义任务,以及的确的东谈主工标注任务。测试使用了Mind2Web中最难的一个子集——来自未见领域且操作门径高出10步的任务,共148个测试样例,平均每个任务需要13.57步操作。阻抑标明,完成两阶段锻练后,元任务、GPT-4o生成任务和东谈主工标注任务的性能险些莫得各异(门径得胜率区分为51.3%、51.5%和52.1%),惟有"仅点击"的非常简化版人道能彰着较差,因为模子会退化成老是预测点击操作。这个阻抑从侧面讲授了元任务的设想是满盈充分的。
对于数据量的影响,他们区分测试了使用10、100、1000、10000、50000条第一阶段数据的成果,每个竖立孤立重复三次取平均。阻抑呈现出非常澄清的趋势:从10条数据开动就有彰着的性能培育,跟着数据量增多性能陆续改善,在50000条时仍未出现饱和。用所有这个词这个词500K数据集时,约莫在35万条数据处性能趋于清醒,诠释弱监督数据的有用上限约莫在这个量级。哪怕只用10条弱监督样本,也能在Mind2Web上培育1.7%、在ScreenSpot-Pro上培育2.6%,体现出这种数据的极高效能。
探求团队还展示了一个直不雅的失败与得胜案例:在第一阶段锻练后,模子面对一个演唱会票务网站时,它知谈重心击某个按钮,但过失地点到了"按日历筛选"按钮,而不是"改变城市"按钮——两者皆是可交互元素,但语义向前者是错的。经过第二阶段的有语义任务微调后,通常的截图,模子能正确识别出需要先点击"改变城市"来把地点改为纽约。这个案例灵活诠释了两个阶段的单干:第一阶段教学"那边能点",第二阶段教学"在这个任务里该点哪个"。
说到底,GUICrafter这项探求干的事情有点像一个聪惠的自学者:别东谈主需要请一百个厚实手把手教一百种任务,他却先我方把市面上所有这个词的操作手册翻一遍,摸了了每种按钮、每种输入框长什么样、在那边,然后只请几个厚实帮他过一遍的确场景就能上手。阻抑,这个自学者在绝大多数锻练科目上和那些花了多数家教费的同学打成平手,以致未必还后发先至。
这项探求最实在的意旨在于:它冲破了"必须有海量标注数据才智锻练好GUI智能体"的假定。互联网上的网页截图是无穷无穷的资源,手机应用的无龙套树数据也随手可取,这些东西内部藏着的交互信号十足可以成为锻练的燃料,而不需要真东谈主去逐条记号。自然,探求团队也坦诚地指出,第二阶段如故需要一小批高质料的东谈主工标注数据来作念最终更始,十足排斥东谈主工介入还有待探索。他们在预测中提到,翌日诡计借助大模子来自动合成有语义的任务描写,从而确立一个束缚自我迭代的数据飞轮,让GUI智能体陆续进化而无需东谈主工骚扰。
这个地点要是能走通,对于每个但愿用AI助手帮我方处理日常电脑操作的普通东谈主来说,皆意味着更低资本、更强智商、更深广应用场景的智能操作助手变得越来越近。对这项探求感酷好酷好的读者,可以通过arXiv编号2606.29705找到完好意思论文,代码、数据集和模子权重也已同步开源。
Q&A
Q1:GUICrafter是如安在不需要东谈主工标注的情况下锻练GUI智能体的?
A:GUICrafter通过自动爬取的确网页,哄骗浏览器器具识别出页面上哪些元素可以点击、输入或选定,再将这些交互信号转换为锻练数据。AI在"找到任何可点击的地方并点击"这类通用提示下反复熟悉,通过赏罚响应自我进化,所有这个词这个词过程无需任何东谈主工记号。
Q2:GUICrafter的高斯奖励和普通二元奖励有什么区别?
A:普通二元奖励只重心到自便可交互区域就给满分,导致AI应付点个按钮就能得奖,精度无从培育。高斯奖励则以可交互元素的中心为靶心,离中心越近得分越高,越偏越低,迫使AI学会精笃定位,实考据明这在高难度任务上成果彰着更好。
Q3:GUICrafter和UI-TARS比拟数据量差距有多大,性能差距若何?
A:UI-TARS使用了约1840万条东谈主工标注轨迹数据,GUICrafter仅使用约2万条弱监督数据加不到7000条高质料标注数据,总量不足UI-TARS的千分之一。但在多个基准测试上,GUICrafter-3B的性能与UI-TARS-2B相当以致在跨域泛化场景下略优万博manbext体育官网app娱乐,体现出极高的数据哄骗效能。
