关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者1535人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来2月交付2.08万台新车 同比增长57.6%

网易汽车 浏览 1090

杨振宁先生缅怀室设在父亲曾执教的小楼里|封面新闻记者清华采访侧记

封面新闻 浏览 2903

尚界H5成20万元内唯一超五星安全认证车型 余承东:这个有点厉害

快科技 浏览 844

2-4遭海牛逆转,国安追平队史中超主场单场丢球纪录

懂球帝 浏览 2801

刘强东"10年1元年薪"到期 网友曾调侃章泽天离婚分5元

红星资本局 浏览 20171

62岁农村大爷打赏女主播50万 全家人一查账单直接傻眼

极目新闻 浏览 25427

“沙僧”刘大刚去世!生前最后露面消瘦,去年师徒合体表演成绝唱

萌神木木 浏览 2680

普京:若乌方不愿和平解决 俄方就打到问题解决

国际在线 浏览 1979

介绍一个如果你用了,你就看不到这篇文章的产品

时尚COSMO 浏览 2126

“满200减20”变“满200减200”,豆瓣App致歉:将对所有异常订单进行自动退款

扬子晚报 浏览 1096

21岁女生患白血病寻亲 有人主动认亲后表示年份不符

潇湘晨报 浏览 5604

大疆最大对手,要IPO

投资家 浏览 1863

马克龙要建欧洲有史以来最大航母 "掠食者"表述不寻常

新京报 浏览 29078

lifeme魅蓝H1 Pro头戴式降噪耳机「Hi-Fi版」1月15日发布

IT之家 浏览 1565

彩虹-7高空高速隐身无人机成功首飞 实现重大突破

新京报 浏览 7836

媒体:被美国逼着“朝中国开枪” 韩国玩得起吗

澎湃新闻 浏览 3012

许利民:曾凡博确实非常优秀,祝贺他回归首秀奉献如此精彩表现

懂球帝 浏览 1977

"商务部公告附件首次改为wps格式"不实 至少5年前已用

极目新闻 浏览 7173

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 2404

10月汽车召回盘点|召回合计19.6万辆,以自主品牌召回

大象新闻 浏览 2624

高市早苗要和中国打时间差 或赶在特朗普访华前访美

北京日报客户端-长安街知事 浏览 13110
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1