关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2833人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

助力AI全民创作 万兴科技(300624.SZ)旗下万兴天幕创作广场推出“视频教程共创激励计划”

智通财经 浏览 4659

70岁老人与歹徒搏斗被咬掉鼻子吞下 曾一度剧痛半昏迷

潇湘晨报 浏览 34923

东风集团股份资本重组方案落地 实现100%国有控股

网易汽车 浏览 2258

福建赖氏宗亲:姓赖的都是中国人 姓赖者根源都在中国

环球网资讯 浏览 8330

拉门斯:阿莫林把压力放在自己身上,他为我们承担了很多压力

懂球帝 浏览 4198

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 4154

AI杀入美股,DeepSeek又是第一!港大90后开源,AI股神人人都能造

新智元 浏览 3982

霍英东体育基金会晚宴,多位奥运冠军现身,霍家更知郭晶晶的份量

不八卦会死星人 浏览 3432

女网红流落柬埔寨街头 中使馆:已联系其家属准备接回

封面新闻 浏览 10432

老外在中国的最酷打开方式

时尚COSMO 浏览 6127

主要针对能源企业,仍然保留对话空间,俄称已对美欧制裁形成“免疫力”

环球网资讯 浏览 4037

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 3201

分子设计迎来AI新纪元:蒙特利尔大学让计算机成为"分子工程师"

科技行者 浏览 3062

塞尔记者:维尼修斯迎来绝佳机会,皇马希望主场球迷不要嘘他

懂球帝 浏览 3183

整形医生称泰勒·斯威夫特怀孕了

阿废冷眼观察所 浏览 4111

福建舰未来还会搭载哪些新型舰载机 专家解析

北京日报客户端 浏览 4667

双节假日即将拉开序幕:酒店民宿预订率均超去年,第一批拼假游客已抵达酒店

澎湃新闻 浏览 4557

章子怡百花晚会偶遇30年好友曾黎

泪满过眼 浏览 2922

A股利好,一夜之间多家公司密集宣布

21世纪经济报道 浏览 3461

再见了卡梅隆,再见了《阿凡达3》,中国观众别再被骗了

娱乐圈笔娱君 浏览 3337

福建一无人岛垃圾泛滥 岛上有140万根玄武岩石柱群

极目新闻 浏览 4195
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1