关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2671人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 3445

上海老人落水获救 4名老人花4天完成"不打扰"的致谢

大风新闻 浏览 8506

小米米家漫反射吸顶灯新品预约:1899元

IT之家 浏览 2704

点一桌子菜只吃几口,39岁杨幂揭开内娱现状,没胃口更没活人感

萌神木木 浏览 2952

美迪西子公司遭客户索赔1.59亿元,因新药项目安评报告交付滞后

红星资本局 浏览 4804

委内瑞拉国防部长:已做好捍卫祖国的准备

海外网 浏览 3360

比亚迪王朝“饭票”曝光,可吃四菜一汤

IT之家 浏览 3298

农妇收玉米时遇山体坍塌失联4天 周边马路出现大坑

红星新闻 浏览 14983

接到立案通知后,股民以为完了,5个月后一算账,7000人账面翻倍

壹只灰鸽子 浏览 3471

"特朗普级"战列舰造价公布:高达220亿美元

极目新闻 浏览 2856

翻拍一部剧,有这么难吗?

时尚COSMO 浏览 2839

美官员称特朗普曾拒绝批准对台4亿美元军援 中方回应

北京日报客户端 浏览 4487

让城市有“面子”更有“里子” 建设韧性城市行动方案发布

央视财经 浏览 4029

FLX1s Linux 手机发布:预装基于 Debian 的 FuriOS,550 美元

IT之家 浏览 4688

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 3965

董璇张维依三亚带娃,这才是家庭最舒服的样子

吴霶爱体育 浏览 2371

曾负债超200亿,创始人已跑路!这家新势力官宣复活,即将发新车

明镜pro 浏览 3880

李迅雷:黄金暴涨、股市波动,普通人机会在哪?

首席经济学家论坛 浏览 3937

中央一号文件来了!今年有哪些“新表述”?

农民日报 浏览 2794

清华字节跳动首创视频换脸新纪元:让照片主角完美融入视频场景

科技行者 浏览 2870

NBA新赛季大前锋TOP10:字母一枝独秀 浓眉盼健康

体坛周报 浏览 3962
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1