关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者1492人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来 ES6 汽车将迎里程碑时刻,第 30 万台今年 11 月交付

IT之家 浏览 1327

李书福罕见发声,吉利豪掷20亿“苦练安全内功”

华山论剑 浏览 891

能否复刻N7的成功?日产N6申报图现身

Nice好车 浏览 1604

50岁阿姨也能穿得亮眼高级,这些搭配的技巧请收好,特别实用

静儿时尚达人 浏览 3096

13日凌晨!成都一小米SU7发生交通事故后起火

网易汽车 浏览 1539

马塞利诺:虽然很困难,但我们想要击败尤文图斯

懂球帝 浏览 2149

英伟达开始在美国生产GPU,台积电加速布局

半导体行业观察 浏览 1502

方程豹钛3拆车:情绪烘托到这份儿上,你会买单吗?

大飙车 浏览 793

南海舰队发声:中国军人,只有战死没有吓死

极目新闻 浏览 913

乌克兰将在德国和丹麦设立武器出口办事处

上观新闻 浏览 1264

颜安,你到底有几副面孔?

时尚COSMO 浏览 1130

雷军在京喊话:共同抵制网络水军、黑公关

大象新闻 浏览 1640

浙江大学最新突破:AI换脸技术迎来电影级质量革命

科技行者 浏览 577

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

LinkFashion 浏览 190

阿里前主席张勇,花5354万港元买了套香港半山豪宅

财通社 浏览 1471

“借鸡生蛋”玩崩!一家由上市公司背书的平台,卷入10亿风暴

深蓝财经 浏览 1332

短剧《还珠》:有些明星不火,真的是必然!

海绵宝宝的心事 浏览 1344

阿莫林的耻辱之最

体坛周报 浏览 494

特朗普回应前助理被起诉:这是个卑鄙的家伙

参考消息 浏览 6599

“窝囊”35年没人理!直到遇66岁迟蓬才大火

苏子Vlog一 浏览 579

全球红人经济“超级枢纽”!天下秀递表港交所,新浪微博持股近27%|港E声

时代周报 浏览 560
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1