关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者54人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

肖荣基带肖思远的照片亮相九三阅兵

环球网资讯 浏览 1705

将于12月5日上市 别克至境世家广州车展发布

网易汽车 浏览 1094

或为黄色特别版 斯巴鲁BRZ新车型预告图发布

车质网 浏览 1733

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 1295

娜扎被抢休息室,网友扒出疑似林允

萌神木木 浏览 1611

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

封面新闻 浏览 7187

中国对稀土相关技术实施出口管制

财联社 浏览 16918

消息称LPDDR5X内存价格持续飙升,涨幅可抵2亿像素潜望镜

IT之家 浏览 1527

卓正医疗通过IPO备案:年营收6.9亿 腾讯与H Capital是股东

雷递 浏览 2390

斯帕莱蒂为跑轰尤文注入灵魂,奥彭达被重新“救活”

体坛周报 浏览 826

搭载双电机 极狐阿尔法S6四驱版或年内上市

车质网 浏览 1254

三种动力配置 星光560将于1月15日上市

网易汽车 浏览 453

可磁吸绝配iPhone!长江存储致态灵潮流版移动SSD 2TB图赏

快科技 浏览 857

南海舰队发声:中国军人,只有战死没有吓死

极目新闻 浏览 926

弗赖堡vs汉堡:金特尔、格里福首发,法比奥-维埃拉、洛孔加出战

懂球帝 浏览 488

出生人口跌破800万,养老金怎么办?

智本社 浏览 395

斯基拉:阿森纳正在关注铃木彩艳,有意在下个赛季引进他

懂球帝 浏览 1012

小马、文远回港上市 但自动驾驶还没赢家

虎嗅APP 浏览 1347

德国央行行长扬言:得想想如何报复中国

澎湃新闻 浏览 8238

或将年内上市 阿维塔全新旅行车谍照曝光

车质网 浏览 87

国内首个开放式机器人租赁平台在沪发布,已触达50个重点城市

澎湃新闻 浏览 784
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1