关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者1469人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026年第一票房惨案诞生了

靠谱电影君 浏览 576

美国司法部查扣12.7万枚比特币 其所有人仍在逃

澎湃新闻 浏览 6313

刘烨混血儿女被偶遇 诺一与霓娜模样大变!

盖饭娱乐官方号 浏览 17056

数据不说谎 | 热火G3五大败因:约基奇穆雷同砍30+三双历史首现

罗说NBA 浏览 17160

GPT-6要「活」了?MIT新作曝光,AI「自进化」不远了

新智元 浏览 1581

双电机长续航/高性能 极星3正式开启全球首批用户交付

网易汽车 浏览 11613

许绍雄患癌仍敬业!今年参演9部作品努力宣传剧集

萌神木木 浏览 1466

媒体:美国盯上铜、银、煤炭等矿产 下一步或加税

澎湃新闻 浏览 6025

美拉德之后,格雷系穿搭突然火了!

LinkFashion 浏览 14406

统一企业中国提500亿大目标,可食品业务没顶住

斑马消费 浏览 15132

2021世俱杯改为日本承办,24支球队缩减至7支

趣看热点 浏览 26057

宫古岛海底发现日本自卫队直升机残骸

环球网资讯 浏览 19153

曲婉婷近照疑曝光!眼神闪躲像躲债

小徐讲八卦 浏览 438

“最帅升旗手”张自轩结婚了

说点事 浏览 512

祁发宝张开双臂的震撼瞬间祁发宝个人介绍

趣看热点 浏览 26831

谈及俄国防部人事调整问题 佩斯科夫回应

界面新闻 浏览 16243

《日掛中天》首波口碑!剧情被质疑渲染苦难,辛芷蕾演技获肯定

萌神木木 浏览 1345

新一代奥迪A6L申报工信部:配置给满、V6 3.0T瞩目,拥有稀缺卖点

驾仕派 浏览 989

媒体:指控字节跳动的前员工 或已与美情报部门合作

环球时报国际 浏览 16630

这5件衣服尽量舍弃 谁穿谁掉价

形象设计师飞飞 浏览 19995

“靴靴你”雪地精灵杨超越

时尚COSMO 浏览 14006
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1