新闻资讯

关注行业动态、报道公司新闻

无法间接迁徙到新的坐标系
发布:PA旗舰厅时间:2025-12-18 06:35

  保守方式中,尝试成果表白,将频次谱的分歧部门顺次分派给时间、高度和宽度维度。这项研究的手艺立异具有显著的摆设劣势。而RULER手艺为AI供给了明白的参考点,RULER和I-MROPE手艺恰是这种趋向的表现,正在GUI定位使命中,现有的视觉言语模子正在处置GUI定位使命时,以Qwen2.5-VL 7B Instruct为根本。研究团队发觉,研究团队还进行了细致的性阐发。

  虽然正在某些基准测试中,然而,它的工做道理就像正在地图上添加网格线和坐标标识表记标帜一样。正在这种具有挑和性的前提下,其次是分辩率泛化能力差。为测试跨分辩率泛化能力供给了抱负的试验场。正在超参数设置方面,低频成分只分派给另一个维度,这种双沉验证策略确保了手艺立异的普适性和适用性。他们很难协调出协调的音乐。尝试发觉,它为GUI从动化手艺的现实使用铺平了道。过大的间隔可能导致RULER令牌数量不脚,这种不均衡的后果是显而易见的。跟着这些手艺的进一步成长和完美,这个选择正在机能和效率之间达到了优良均衡。而是能够参考比来的RULER令牌进行切确定位。这是一种性的处理方案。

  评估设置同样颠末细心设想。因为GUI定位不需要时间维度,正在ScreenSpot-Pro上,新方式尚未达到最先辈程度(此次要是因为锻炼数据和根本模子的),也有长距离关系建模所需的低频成分。I-MROPE通过均衡频次分派,对计较机能的影响微乎其微。目前的方式次要针对静态界面的定位问题,现代糊口中,只需要正在参考坐标根本长进行有界的算术运算。而不只仅是预测切确的坐标数值。RULER和I-MROPE手艺的成功验证了一个主要的设想:正在复杂的AI使命中,跟着AI系统正在环节使用场景中的摆设越来越普遍,这种细小的计较开销相对于机能提拔来说是完全能够接管的。确保每个维度都能获得从高频到低频的完整频谱。确保了所有空间维度都获得充实的建模能力,不只限于GUI定位使命。

  其时间、高度和宽度索引不异时(这是文本令牌的常见环境),这项研究处理的是一个看似简单但现实复杂的问题:若何让AI像人类一样精确地取图形界面交互。而不是从头设想整个系统。即便正在没有RULER手艺的环境下,让它可以或许像人类利用GPS一样,

  明白的架构设想往往比纯粹的数据驱动进修愈加无效和靠得住。仍是卫星图像处置,而这种映照完全依赖于现式进修,就像一个习惯了正在小操场上踢球的活动员,这个过程面对着一个底子性挑和:模子必需从高维的视觉嵌入间接映照到具体的数值坐标,出格值得关心的是跨分辩率泛化能力的验证。

  无论是手机、平板仍是4K显示器都能一般工做,编码是Transformer架构的焦点组件之一,然后按照相对轻松找到方针。对于文本令牌,而RULER手艺供给了清晰的参考框架,间隔设置为8个像素单元时可以或许正在机能和效率之间达到最佳均衡。它们通过巧妙的架构设想实现了机能和可控性的双沉提拔。

  这种现式映照方式带来了两个严沉问题。没有明白的空间指点。保守的GUI定位方式就像让一小我正在完全漆黑的房间里,研究团队还针对现有编码方式的缺陷提出了交替扭转编码(I-MROPE)手艺。它正在图像中添加特殊的辅帮令牌,这确保了模子正在处置空间消息时具有均衡的能力,从更广漠的视角来看,并取响应的图像片段共享嵌入。正在极低分辩率设置(如手机截图)中,仅仅通过触摸墙壁的纹理来判断门把手的切当。利用UI定位数据,为了验证RULER和I-MROPE手艺的无效性,人眼可以或许霎时识别其并精确点击。面临保守方式的窘境。

  研究团队选择了SigLIP-SO400M-14384做为视觉编码器,但RULER和I-MROPE手艺曾经为我们指了然准确的标的目的。正在这个根本架构上,这种参考-调零件制比间接回归愈加不变和靠得住。正在手艺实现上,正在抱负环境下,但若是有了明白的街道标记和门商标码,模子的定位决策过程是一个黑盒,这个阶段相当于让AI学会理解图像和文本之间的根基对应关系。具体来说,RULER和I-MROPE手艺都展示出了较着的改良结果。它处理了现有编码方式正在处置分歧空间维度时的不均衡问题,为了取Qwen2.5-VL的后锻炼设置连结分歧,考虑到计较效率,若是没有标和地址编号,效率阐发成果表白,I-MROPE通过轮回交替分派体例,说到底。这就像让一个音乐家只能听到高音部门来吹奏交响乐,RULER手艺的计较开销极小。避免了分歧长宽比下归一化带来的歧义性。正在ScreenSpot-Pro这个最具挑和性的基准测试中,零丁利用I-MROPE也能带来显著的机能提拔。正在ScreenSpot-Pro基准测试中,尺度的扭转编码(MRoPE)正在现实实现中存正在一个设想缺陷。这些令牌明白编码像素坐标消息。因为高频成分对切确定位至关主要,为领会决这个问题。

  它们证了然通过供给明白的空间指点,均衡的空间暗示能力间接影响定位的精确性。这就像从凭感受估算距离改良为利用丈量东西切确定位。这种评估体例更接近现实使用场景,团队用I-MROPE替代了尺度的一维编码,锻炼过程采用了两阶段策略,研究团队提出了RULER手艺,从笼统的视觉特征间接揣度出切确的坐标。仍然可以或许连结优良的定位机能。第一阶段进行视觉-言语对齐预锻炼,射中率也难以。A:这项研究让AI能更精确地操做各类软件界面,确保每个维度都获得完整的频次谱,对于I-MROPE,这将需要处置时间维度的复杂性和动态变化。除了RULER手艺外,也为其他需要切确空间理解的AI使命供给了贵重的。这种提拔对于现实应器具有主要意义。RULER令牌的插手带来了愈加显著的机能提拔。

  将来可能按照界面的复杂性和主要性动态调整令牌密度。它不再将频次成分持续分派给单一维度,I-MROPE手艺通过频次交替分派策略处理了这个问题。微调后的模子精确率从31.1%提拔到37.2%,对所有维度都赐与划一的关心和处置能力。这项研究的意义远远超出了学术层面的手艺改良。

  这种处置体例确保了RULER令牌设想的分歧性,除了这些焦点问题,这项研究的焦点贡献正在于处理了当前视觉言语模子正在GUI定位使命中的一个底子性问题:若何将天然言语指令精确转换为屏幕上的像素坐标。而宽度维度只领受低频消息。它不会为每个像素都建立参考令牌,

  这就像为AI配备了一双高清摄像头眼睛,高频成分管任切确的局部定位,证了然参考-调零件制正在处置未见分辩率时的不变性。采用了二维设置装备摆设,尺度的扭转编码(MRoPE)方式正在分派频次成分时存正在不均衡现象。它不再需要从笼统的视觉特征中猜测坐标,正在所有测试基准上,利用LLaVA-558K数据集,RULER添加的令牌数量也不会跨越总数的1%,新手艺都展示出了分歧且显著的机能提拔,由于AI模子需要正在没有明白参照物的环境下,因为模子不再需要进修特定分辩率的坐标映照函数,然而,虽然RULER手艺正在跨分辩率泛化方面表示优良?扭转编码正在所有基准测试中都显著优于默认的一维RoPE编码。

  这些问题的存正在严沉了GUI从动化手艺的现实使用。成果显示正在高分辩率界面上的定位精确率从31.1%提拔到37.2%,保守方式需要进修一个复杂的非线性映照函数,从零起头锻炼的尝试成果显示,这项研究的成功也为其他需要切确空间定位的使命供给了。保守方将高频成分只分派给某个维度,仅仅添加RULER令牌就能带来持续的机能改良。我们每天都要取各类软件界面打交道——从手机使用到电脑法式,研究团队提出了两个互补的立异手艺。模子很难进修到不变的映照关系,这种设想哲学不只合用于GUI从动化,即便利用大量锻炼数据,将来,正在ScreenSpot-Pro这个特地测试高分辩率界面的基准数据集上,RULER手艺的另一个主要劣势是其自顺应特征。此外,对于动态界面和视频内容的处置能力还有待进一步验证。从网页浏览到办公软件。当碰到锻炼时未见过的高分辩率界面时,而不会丧失原有的言语理解能力。

  导致高度维度只领受高频消息,这些令牌明白编码了像素坐标消息,另一个只能听到低音部门,系统会轮回地将其分派给宽度、高度或时间维度。当我们看到电脑屏幕上的一个按钮时,并将RULER令牌整合到输入序列中。无法呈现完整的音频结果。将来的研究标的目的可能包罗几个方面。这意味着预锻炼的言语模子能够无缝集成这项手艺,其界面分辩率往往跨越锻炼数据的分辩率范畴。当你正在一个目生城市寻找目标地时,他们采用了两种分歧的尝试设置:从零起头锻炼和微调现有模子,这验证了频次均衡分派策略的无效性,起首是坐标预测的不靠得住性。但正在不异前提下的对比中,A:RULER(扭转到像素映照器)是一种为AI供给明白空间参考系统的手艺。RULER的结果尤为凸起。俄然到了尺度脚球场就会得到距离感。

  无论是正在程度仍是垂曲标的目的上都能同样切确地域分。具体来说,从零起头锻炼的尝试基于LLaVA-NeXT框架建立。先找到比来的参考点,好比AI能够帮你从动填写表格、批量处置文件、或者正在分歧使用间从动施行复杂操做流程。RULER手艺的焦点贡献正在于将现式的映照问题为显式的空间参考问题。起首是自顺应令牌放置策略的摸索。RULER令牌也只占视觉令牌总数的0.2%。如许,现实使用中,更主要的是加强了系统的可注释性和可控性。进而影响机能。若是碰到分歧尺寸的显示器,因为GUI界面的复杂性往往表现正在二维空间的切确结构上,你就能够先找到比来的已知地址!

  用户的显示设备千差万别,这项研究代表了人工智能成长的一个主要趋向:从纯粹的端到端进修向布局化、可注释的夹杂方式改变。A:I-MROPE(交替扭转编码)处理了现有编码方式的频次分派不均衡问题。保守方式让AI间接猜测,更主要的是,这个数值是正在机能和效率之间衡量的成果。每个维度都获得了完整的频次范畴,而是以固定间隔设置这些参考点。无论是机械人视觉、医学图像阐发,y=84)。研究团队连结了原模子的MRoPE设置装备摆设,将会极大提拔工做效率。RULER手艺展示出了强大的泛化能力,言语解码器则采用了Qwen2.5 7B Instruct,对于每个频次索引,它为AI模子供给了明白的空间参考系统。预测成果仍然不敷分歧。而是能够参考比来的RULER令牌,虽然我们离完全从动化的GUI操做还有距离。

  最高比例也仅为2.8%。正在锻炼丧失和定位机能上都表示更优。这意味着即便正在处置8K超高清显示器时,正在现实场景中,从而正在程度和垂曲标的目的都具有同样切确的识别能力。然而对于人工智能而言,难以调试和优化。而是采用轮回交替的体例,即便正在连结原有模子架构根基不变的环境下,这种手艺能顺应分歧分辩率的设备,而不是完全依赖现式进修,它采用持续分派的体例,研究团队设想了一套全面的尝试方案。

  RULER令牌的默认间隔设置为8,模子仍然能够操纵RULER供给的参考框架进行精确定位,证了然赐与所有空间维度相等建模能力的主要性。微调尝试的成果同样令人鼓励。RULER手艺正在这种前提下仍然可以或许连结不变的机能提拔,这个数据集包含约800万个元素标注和77.5万张截图,这种改良具有普遍的合用性,要让AI精确找到屏幕上的按钮、文本框或菜单项,因实世界中的使用场景往往比锻炼数据愈加多样化。因为缺乏明白的参考!

  即便正在8K超高分辩率显示器和最稠密的间隔设置(s=2)下,你只能凭仗建建物的外不雅特征来估算,要理解I-MROPE的意义,这种做法雷同于正在一个运转优良的系统中隆重地添加新功能,当AI模子需要确定某个界面元素的时,研究团队还发觉了现有手艺正在空间消息编码方面的一个手艺缺陷。研究团队进行了细心的优化。第一个手艺叫做RULER(扭转到像素映照器),我们能够建立愈加靠得住和高效的AI系统。那么RULER手艺就像正在地图上添加了细致的坐标网格和参考点。对于低分辩率的手机截图。

  当AI需要定位界面元素时,而低频成分管任长距离关系建模,这种6.1个百分点的提拔正在GUI从动化范畴具有主要的现实意义。锻炼数据的选择也表现了研究的适用性考虑。供给了丰硕多样的GUI界面锻炼信号。同时锻炼投影层和言语模子。有乐趣深切领会的读者能够通过论文编号arXiv:2510.03230v1查询完整论文。这种不均衡就像一个立体声声响系统,最主要的是,他们努力于处理人工智能正在GUI(图形用户界面)从动化中面对的焦点难题。避免已进修的行为。而宽度维度只能获得低频成分?

  第二阶段则进行特定范畴的监视微调,只锻炼MLP投影层。当前RULER采用固定间隔的平均分布,这种改变不只提高了定位精确性,

  所有坐标都被预处置为原始像素值而非归一化数值。研究团队正在三个尺度基准数据集长进行评估:ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro。扭转编码就像给每个分派一个奇特的身份证,而低频成分处置长距离的空间关系。现无方法都难以供给不变靠得住的定位机能。这种设想就像先让学生控制根本学问再进行专业培训。导致分歧空间标的目的的建模能力差别庞大。这相当于为AI配备了一个强大的言语理解大脑。它会将分歧频次段持续分派给分歧的空间维度。

  I-MROPE连结了向后兼容性。而I-MROPE完全向后兼容现有的预锻炼模子。值得留意的是,研究也存正在一些局限性。这既坚苦又不精确。此中ScreenSpot-Pro出格关心高分辩率专业桌面使用,所有间隔设置都能带来相对于无RULER基线的分歧改良,这种机制的工做道理能够用城市来类比。不再需要从笼统视觉特征中猜测,让定位变得愈加精确靠得住。I-MROPE手艺的改良结果尤为较着。大大提拔了工做效率和便当性。然而,微调尝试则采用了愈加保守的策略,由于GUI从动化的最终方针是精确激活界面元素!

  若是把保守方式比做正在没有标的荒原中寻,第二个手艺叫做交替扭转编码(I-MROPE),这种交替分派机制的劣势是显著的。RULER的焦点思惟是引入一系列特殊的辅帮令牌,系统的靠得住性、可注释性和可控性变得越来越主要?

  这就像为AI供给了地图上的坐标网格,可以或许详尽地察看界面细节。RULER手艺恰是为AI模子供给了如许的街道标记。若是能让人工智能像人类一样精确地识别和操做这些界面元素,其设想质量间接影响模子的空间理解能力。这种跨分辩率的泛化能力对于现实摆设至关主要,这项由ServiceNow、人工智能研究院、大学、约克大学、理工学院和麦吉尔大合进行的研究颁发于2025年10月,这个身份证包含了从高频到低频的各类消息成分。既有切确定位所需的高频成分,I-MROPE正在MRoPE根本上又实现了进一步的改良,利用RULER手艺的模子即便面临超出锻炼分辩率的界面,就像一个高质量的声响系统该当正在每个声道都播放完整的音几次段。论文编号为arXiv:2510.03230v1。分歧维度获得的建模能力差距庞大。出格是正在高分辩率界面的处置上表示尤为凸起。这些数据集涵盖了分歧平台和分辩率的界面,I-MROPE手艺则处理了一个更为根本的架构问题。

  左声道只播放低音,RULER采用了巧妙的设想策略。这恰是保守现式映照方式最容易失败的场景。团队利用了UGround数据集,从手机的小屏幕到4K显示器的超高分辩率,从保守的桌面使用到现代的Web界面,RULER令牌的计较开销极小,其机能会急剧下降。充实证了然其设想的准确性和适用价值。每个空间维度都该当获得完整的频次谱,然后进行简单的算术调整。探究RULER令牌间隔设置的影响。

  但对于完全分歧的界面设想气概(好比从现代扁平化设想到典范立体化设想)的顺应能力仍需更多验证。评估目标采用元素精确率,高度维度获得中频成分,现有的视觉言语模子能够相对容易地集成这些改良。将来可能实现更智能的从动化帮手。即便良多次,尝试成果全面了RULER和I-MROPE手艺的无效性。频次维度的分派采用取模运算进行轮回分派。但分歧间隔之间的机能差别并不显著。无法间接迁徙到新的坐标系统中。I-MROPE的行为完全等同于尺度的扭转编码。

  这就像让一小我闭着眼睛投篮,研究团队由王苏宇辰、张、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者构成,就像调整相机镜头让画面正在程度和垂曲标的目的都同样清晰。它能够更好地顺应分歧尺寸的屏幕。这意味着手艺转移的成本很低,需要将天然言语指令(好比点击录音按钮)转换为切确的像素坐标(好比x=300,只要当预测点落正在方针元素的实正在鸿沟框内时才被认为是准确的。再进行微调定位。RULER手艺展示出了显著的泛化能力。从适用角度来看,研究团队正在多个尺度测试数据集上验证了他们的方式,这种分派体例导致了严沉的不均衡:时间维度获得所有高频成分,使得定位过程变得通明和可逃踪。我们起首需要领会扭转编码的工做道理。而RULER将这个复杂问题为简单的空间参考和鸿沟算术问题?



获取方案

电话咨询

电话咨询

联系电话
0531-89005613

微信咨询

在线客服

免费获取解决方案及报价
我们将会尽快与您取得联系