关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2830人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

工业边缘AI计算赛道升温,设备与芯片厂商抢占风口

21世纪经济报道 浏览 4838

娜扎被抢休息室,网友扒出疑似林允

萌神木木 浏览 4182

本轮矿业大周期的演进逻辑,隐匿在“卖铲人”的资产负债表里

锦缎研究院 浏览 1272

负债数亿,足力健卖食品要开20000家店

中国企业家杂志 浏览 3892

E句话| 恭喜,他们生三娃了!

仙女事件簿 浏览 3978

鏖战3小时,40岁老将瓦林卡追平纳达尔职业生涯一大纪录!

网球之家 浏览 3236

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 3167

携程迎来监管风暴

华尔街见闻官方 浏览 3068

千亿减肥药市场打响“地板价”争夺战

中国商报 浏览 3278

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 2955

伊朗:最高领袖穆杰塔巴全面掌控局势

国际在线 浏览 813

媒体:特朗普称对华加税100% 在中美会晤前威慑中国

新民周刊 浏览 8117

智己汽车2025全年销售81,017台 创历史新高

网易汽车 浏览 3339

万科:董事长辛杰辞职

网易财经 浏览 3725

豪华大六座SUV/最新鸿蒙座舱 岚图泰山将于11月18日上市

网易汽车 浏览 3852

阿特金森帅位岌岌可危!上季当选年度最佳教练 曾获骑士老板力挺

罗说NBA 浏览 3437

柬埔寨内政部:柬泰冲突已致31名柬平民死亡

国际在线 浏览 2976

陈行甲已到新东方报到!此前俞敏洪宣布年薪150万聘请其为总顾问,并称加入恒晖基金会

封面新闻 浏览 2902

强奸大嫂凶手出狱去大嫂家 大嫂吓得穿内衣跑街上求救

澎湃新闻 浏览 93804

纳斯达克称申请将工作日交易时长延长至23小时

财联社 浏览 3363

诺伊尔说希望自己看上去没有马特乌斯那么老,随后赶紧纠正

懂球帝 浏览 4890
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1