你的位置:世博体育官网2024安卓最新版_手机app官方版免费安装下载 > 资讯 > 欧洲杯体育中兴构建了几十万的单步请示数据-世博体育官网2024安卓最新版_手机app官方版免费安装下载

允中 发自 凹非寺
量子位 | 公众号 QbitAI
跟着迁移智能技巧的赶紧迭代,手机端团员劳动的AI“超等进口” 正成为行业竞争的新焦点——
GUI Agent(图形用户界面智能体)凭借势塑流量分发花式的后劲,不仅催生千亿级商场机遇,更诱惑苹果、华为、字节逾越、好意思团、智谱AI等企业纷纷布局。
2025年9月14日,好意思团率先推出首个AI Agent,支抓平台内“一句话点餐”,标记着该技巧从研发走向实用化;而中兴通信凭借自研技巧框架,在这一赛说念上交出了亮眼答卷,让手机竟然斥逐“秒变私东说念主小通知”的体验升级。
据2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评数据傲气,中兴通信Nebula-GUI模子以7B参数目斩获总榜银牌,总分84.38,其中UI元素定位得分93.17,尤其在自动点餐、订票等复杂任务中,其准确率与操作速率远超业界其他模子,充分具备手机端侧部署落地才能。

图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准
现在,Nebula-GUI的 “一句话订票”“一句话拍照” 功能已在中兴末端努比亚Z70 Ultra 、Z80 Ultra及红魔新品手机商用。
甩掉刻下,该模子已笼罩30余款主流APP,常用场景平均准确率超90%,畴昔欧洲杯体育研究进一步笼罩手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级劳动,抓续深刻“手机小秘”的实用价值。
图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准
攻克手机数据困局:端到端数据制备系统夯实技巧根基GUI Agent的性能犀利,数据是中枢辅助。但刻下屏幕自动技巧的考试数据赢得濒临多重行业繁重:
高质地汉文GUI数据稀缺,公开英文数据集已达百万级,汉文数据却仅数千组,且标注粒度粗、属性缺失;跨APP操作的复杂任务轨迹数据不及;东说念主工标注经由低效,不仅难以纪录触控坐标与UI控件元数据;还存在想维链等语义信息缺失、核查老本高的问题;东说念主工标注易受主不雅影响,导致数据泛化性差。端到端数据制备系统
为惩办上述数据赢得的核肉痛点,中兴开采了一套无缺的端到端数据制备系统:包括数据标注器具、自动化数据PIPELINE、自动化轨迹数据生成系统,显耀擢升了数据标注遵循,有用擢升数据质地。
现在,基于该系统生成的数据占考试数据的90%,全体笼罩了出行、酬酢、生涯劳动等多元场景下的主流APP,简略为样子高效、踏实地输出高质地数据。
一体化数据标注器具:擢升数据标注遵循遵循
GUI数据标注器具,将原来漫衍、依赖东说念主工的截屏、操作、标注、核查、存档经由整合为一站式自动化活水线,显耀擢升了数据标注的遵循、精度和丰富度,为模子考试提供了高质地、多维度的高价值数据。
其中枢价值是通过一体化标注决议,系统性惩办了屏幕交互数据制作中的遵循、精度与老本繁重,该器具中枢功能如下:
GUI数据标注器具中枢功能
通过引入GUI数据标注器具,数据标注遵循斥逐了3倍擢升。
标注数据样例
高效智能化数据PIPELINE:赋能标注数据质地跃迁
为斥逐对大模子考试数据的质地优化,中兴开采了一套自动化数据Pipeline,旨在系统化惩办因东说念主工标注导致的说话抒发单一、想维链缺失或逻辑不一致等问题,从而擢升数据的万般性与逻辑无缺性,增强模子泛化才能。
这一举措有助于显耀擢升考试数据的质地,进而擢升模子的最终才能。
自动化数据PIPELINE经由
全时数据飞轮:显耀擢升数据标注范围
面对屏幕数据标注对东说念主力与栽植资源的双重依赖,中兴推出了一个集任务改革、任务治理、联邦栽植治理与GUI Agent于一体的数据自动化生成平台。
该平台通过对漫衍的实体手机和捏造机进行集约化管控,有用惩办了栽植资源诈骗率低、治理漫衍的痛点。
基于高效的任务改革引擎,平台简略全时自动化启动,构建了从任务下发到数据生成的闭环活水线。
这不仅大幅镌汰了对东说念主工标注的依赖,更斥逐了数据坐蓐范围与全体遵循的同步飞跃,为AI模子的快速迭代提供了浩大助力。
任务改革和栽植治理系统
监督微调:从 “看见” 到 “实施”,打造会想考的 “小秘”业界现存多模态大模子在处理GUI屏幕时,每每证实出三大局限:
当先,感知失准,它们可能识别出界面中的“一个红色方形图标”,却无法精确壮健这是一个“可点击的、用于删除样子的按钮”;其次,推理脱节,模子虽能描写屏幕内容,却难以将“帮我订一张翌日去上海的机票”这么的高阶请示,转动为一连串具体的点击、输入、滚动等原子操作;临了,交互缺失,模子短少输出结构化、可实施操作请示的才能,使其留步于“不雅察者”而非“实施者”。中兴通信通过构建VLA(屏幕截图+操作请示+实施动作)数据对,对模子进行系统性监督微调,顺利让通用多模态模子进化为具备“感知-壮健-实施-研究-纠错”才能的GUI操作智能体:
多阶段精调
通过上述面向基础才能、请示操作、任务研究与自我反想才能的系统性监督微调,中兴顺利地将一个通用的多模态大模子,专项优化为一个具备高鲁棒性的GUI操作智能体。
其带来的本色后果是显耀且多脉络的:
基础操作鲁棒性显耀增强:模子对汉文GUI页面,UI元素的动态变化(如告白弹窗、布局养息)具备了更强的壮健才能,简略准确识别指标组件,有用造反界面杂音骚扰,大幅镌汰了单步操作的失败率;长任务经由顺利率有用擢升:收货于研究才能的注入与自我纠错机制,智能体不再因单步的就怕症结或页面的不测跳转而导致通盘任务链中断。它简略像东说念主类用户雷同,在实施中监测气象,在偏离时回溯旅途,从而保证了复杂多步任务的完成度;从“实验室原型”迈向“交易可用”:最终,这些才能的综配合用,使得GUI智能体从一个证实尚可的“原型”,进化为一个简略安妥竟然宇宙、动态GUI环境的“准坐蓐级”助手。其中枢标记即是——在不笃定的推行场景中,踏实、可靠完成任务的才能。1、从“看见”到“瞻念察”:基础才能的质的飞跃
为了让模子精确壮健汉文GUI界面的复杂结构与语义,中兴针对开源视觉模子严重短少汉文场景考试数据的问题,整合开源与自研数据,并构建了一套交融XML解析、OCR识别、UI元素检测与大说话模子标注的自动化数据标注经由,显耀擢升了汉文基础数据的构建遵循与质地。
最终,中兴自主构建了百万级范围的汉文GUI数据集,笼罩数十款主流汉文APP及数百种高频交互场景。
同期,从开源数据聚积筛选整合了数百万条以英文为主的GUI样本,共同组成笼罩描写生成、功能壮健、元素定位等多类任务的基础考试集。
该搀和数据集的引入,显耀擢升了模子在GUI界面上的基础感知与语义壮健才能。
2、从“请示”到“实施” :斥逐高精确的原子操作
基于单个GUI截图,模子需要简略像东说念主雷同对屏幕进行操作,中兴构建了几十万的单步请示数据,用来考试模子将用户请示映射到正确的UI操作上。
由于单步错诬陷导致多步任务顺利率指数下跌,中兴通过以下方法擢升基础模子才能和单步操作精度:
请示泛化:针对单一UI元素,东说念主们不竭会有多种白话化说法,比如点个外卖、点个奶茶、买个外卖;因此在请示上,中兴针对单一元素会标注多个请示数据,从而加强模子对UI元素的竟然功能壮健;实施想维链:针对请示,模子需要输出想考过程,来决定我方该实施什么操作,以及操作的位置在那里,想维链不错增强模子操作的准确性。图像想考:传统想维链模式频繁以文本输出为主,导致模子出现幻觉,或者想考实施出现偏差。因此引入图像想维链,模子在想考取需要输出温和的图像区域,绑定grounding信息来增强斥逐的置信度。通过宽敞的请示数据和精确的想维链率领,模子在单步上的才能大大擢升,平均准确率卓越95%,部分简易请示操作达到99%准确率。
3、复杂任务的研究与实施:斥逐端到端闭环
复杂任务频繁指需要多步操作完成的任务,也称为GUI导航任务,它的中枢指标是率领模子完成基于特定APP内,甚而多个APP间的多门径操作经由。
每个操作门径(点击/滑动等)都会激发页面气象变更,从而造成包含操作序列与对应页面截图的动态轨迹,模子每一步都需要证据任务信息、刻下气象进行决策下一步的操作。
端到端的导航任务除了依赖模子基础才能和单步实施才能外,频繁还需要模子具备研究才能,想考才能。
为了擢升模子在多步任务上的才能,中兴标注了宽敞的APP轨迹数据,并基于这些标注的轨迹进行了多类型精调数据:
多考试范式:模子支抓想考模式、非想考模式、以及自安妥想考模式;止境是自安妥想考模式,证据任务和刻下气象,自行决定是否输出想考过程,兼顾准确度和遵循;格式化输出:模子整个的输出格式均保抓格式化程序,如<think>...</think><action>...</action>,格式化后的范式擢升了可解析性,也为强化打下了基础;均衡场景+要点采样:通过精确到门径级的数据采样配比,擢升复杂易出错场景的数据配比,镌汰简易场景的配比。大大擢升了模子的全体准确性,以及场景的泛化性。多种精调范式不仅擢升了模子的研究才能和反想才能,也大大擢升了模子的泛化才能,在未见任务上展现出来了更好的研究和实施顺利率。
4、构建自我反想纠错才能:擢升智能体系统韧性
在线应用(APP)的界面布局时常动态变化,尤其是告白内容等区域,甚而可能出现页面自动跳转的情况。
此外,模子在本色操作过程中也可能发生点击罪过,导致跳转至非预期页面。因此,模子需具备自主判断与纠错才能,简略识别畸形页面气象,并从中退出以回到正确的任务经由中。
多图考试:在惯例设定中,业界频繁仅将刻下页面截图输入模子,但这会适度模子对操作历史的感知,进而影响其反想准确性,甚而导致“反想幻觉”。引入前后多幅截图手脚高下文,虽能擢升模子决策的可靠性,但也会带来独特的数据传输与Token支拨;气象迂回壮健:该类任务夙昔后两张页面截图及对应操作手脚输入信息,条件模子通过反想判断该操作是否正确,并发扬其决策依据。该方法旨在增强模子对界面操作所激发气象变化的深层壮健才能。自我反想和纠错才能的引入,是构建鲁棒GUI智能体的关节进展。它使模子从被迫的请示实施者,改革为简略主动监测气象、治理畸形的任务主导者,从而在复杂的竟然环境中保抓踏实输出。
双层强化学习:让 “小秘” 更智能、更鲁棒经过监督微调(SFT)的模子每每更倾向于师法考试数据中的界面操作模式和交互作风,而非竟然理衔命务背后的用户意图与交互逻辑。
若是考试数据自己存在偏差或笼罩场景有限,模子会不加区分地复现这些局限,导致其在未见过的界面或复杂任务中证实欠安。
由于短少对自身步履后果的“判断力”,模子无法评估其输出是否合理或高效。而引入强化学习(RL)后,中兴不再条件模子简易地师法“步履操作”,而是为其设定一个明确的指标——即奖励函数。
刻下,基于强化学习(RL)的GUI智能体已在自动化任务中展现出后劲,但其性能天花板果决瓦解。
中枢瓶颈在于:
其一,主流的翻脸奖励(如0/1)无法对智能体的决策过程进行细粒度率领,导致其学习遵循低下且步履不成控;其二,纯正依赖于静态离线数据集的考试,使得智能体在面对动态、多变的竟然软件环境时泛化才能严重不及。中兴提倡一种全新的双层强化学习范式,通过离线门径级流畅奖励与在线任务级强化的协同考试,从根底上惩办了这些问题,引颈GUI智能体参加“风雅化推理”与“自主进化”的新时间。
1、离线门径级强化:多维度风雅化奖励
针对GUI agent在职务中奖励粒度简易的问题,中兴校正了传统的GRPO翻脸奖励框架,遐想了细粒度的流畅性奖励信号。
该信号体系简略对智能体的每一步推理与操作进行实时、精确的评估与率领,从而将宏不雅任务指标转动为踏实的微不雅考试信号,有用擢升了智能体在图形界面环境中的学习遵循与最终性能。
多维度风雅化奖励
准确性奖励:自安妥空间感知的准确性奖励关于每个点击操作,中兴扬弃了传统的0/1翻脸奖励,遐想了一种基于指标控件范围框的自安妥空间感知流畅奖励函数。
该函数概括计划了控件在全局界面中的相对尺寸以及点击位置在框内相干于中心的归一化距离,通过一种交融了尺寸感知与范围明锐性的机制,使得奖励值跟着定位精度的擢升而平滑且非线性地增多。
此举为计谋优化提供了远比简易欧氏距离更丰富、更平滑的梯度信号,能率领模子自安妥地学习对不同尺寸控件的精确定位计谋,从而显耀擢升了模子的决策遵循、泛化才能与步履可证明性。
置信度奖励:基于概率模子的推理质地评估关于生成正确谜底概率越高的推理过程,中兴以为应该赐与更高的奖励,在模子的推理的每一步,中兴不仅赢得其动作决策,同期赢得模子关于最终任务顺利的预计概率,中兴将该概率值手脚置信度奖励。
此举将远期答复的渴望以一种密集奖励的姿色注入到刻下门径。它激励模子在每一步都采用那些简略率领至最终顺利的高可能性旅途,有用压制了立时探索和逻辑断裂的决策,擢升了通盘推理过程的连贯性与可靠性。
一致性奖励:基于奖励模子的逻辑对皆中兴考试了一个专用的推理奖励模子,该模子以智能体的“想考过程”和“最终实施的动作”手脚输入,输出一个估量二者逻辑一致性的分数。
惩办了“领悟不调和”问题。举例,模子推理“需要点击登录按钮”,却实施了“点击注册按钮”的操作。该奖励模子强制智能体的“想考”与“举止”对皆,这关于复杂任务中的可证明性和故障排查至关蹙迫。
2、在线任务级强化:在动态环境中铸造“自主进化”才能
在竟然的GUI任务场景中,由于每次动作实施后的环境气象都处于动态变化之中,只是依赖离线数据难以笼罩任求实施过程中可能出现的一齐复杂情况。
因此,中兴引入了在线任务级强化机制,通过调用联邦改革系统,高遵循生成宽敞实施轨迹,以万般化的交互老师驱动计谋优化。
该机制以达成最终任务指标为中枢导向,考试模子在交互过程中自主探索不同决策旅途,并具备通过多种方式斥逐指宗旨才能。
该方法旨在显耀增强模子在未知或动态环境下的泛化性能,进一步擢升GUI agent在本色应用中的安妥性与鲁棒性。
在线任务级强化
奖励模子:任务级奖励的关节组件中兴收罗了宽敞包含顺利与失败的东说念主类演示轨迹和智能体探索轨迹,考试了一个任务级轨迹奖励模子,用于判断任务是否正确完成。
对在线学习中对轨迹进行即时评分,大幅擢升了考试遵循,为模子提供了更丰富、更实时的响应信号。
疏淡奖励分拨:“酬功给效”的信用归因中兴采用了一种相连了轨迹长度和时序差分的搀和信用分拨方法。
关于一条无缺的顺利轨迹,证据交流任求实施轨迹的长度和离最终实施顺利斥逐距离的遐迩缔造奖励衰减所有,造成最终的答复。
这种方法斥逐了“酬功给效”。它当然地对更短、更高效的旅途赋予更高的累积答复,从而激励智能体不仅追求顺利,更追求遵循,最终演化出高度优化的步履计谋。
结语从AgentCLUE-mobile榜单的银牌招供,到努比亚Z70 Ultra、Z80_Ultra 手机上的商用落地,中兴通信Nebula-GUI模子不仅彰显了其在GUI Agent领域的技巧蕴蓄,更让“手机变身为私东说念主小通知”从想法走向推行。
畴昔,跟着技巧在智能办公、软件开采、自动化经由等领域的深度渗入,中兴通信或将进一步鼓舞GUI Agent成为手机“超等进口”的中枢载体,让迁移智能劳动竟然赋能五行八作,为用户带来更简易、更智能的使用体验。
Powered by 世博体育官网2024安卓最新版_手机app官方版免费安装下载 @2013-2022 RSS地图 HTML地图