关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者2958人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

纯电续航175公里,吉利银河A7长续航版申报

IT之家 浏览 3193

55岁郑丽文当选国民党主席 其被视为"非典型国民党人"

中国青年报 浏览 7860

郭晓冬夫妇赶农村大集!程莉莎啃鸡腿不忘撒娇

裕丰娱间说 浏览 3027

29岁女白领荒野求生半月瘦成"闪电":睡觉时放一把刀

都市快报橙柿互动 浏览 15528

央视一周 4 次点名全红婵,夺冠后真实处境揭开

寒士之言本尊 浏览 3876

小米澎湃OS 3上线2026年元旦限定水印,三种版式自由选择

IT之家 浏览 2968

美国大模型战局生变:Anthropic 甩出最强模型,OpenAI 陷内部分歧

创业家 浏览 1702

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 7297

服装店起火老板带3孩子跳楼逃生 5人被烧伤已花160万

红星新闻 浏览 99235

17个街道年投入逾亿元 资质错配、服务动力不足何解?

南方都市报 浏览 3576

媒体:34岁印度穆斯林后裔拿下纽约 令特朗普感到畏惧

南风窗 浏览 33851

夏天最经典的银色,贵气十足!

Yuki女人故事 浏览 950

股份行AIC扩容至三家

北京商报 浏览 3871

助贷新规落地调查:单利最低达7.56%

时代周报 浏览 4434

比加班更可怕的,是可能加班

识局 浏览 3334

以总理发视频自证仍“在世”

每日经济新闻 浏览 2203

iPhone Air国行版要来了!联通eSIM预约通道正式开放

三言科技 浏览 3670

OpenAI再度“挖墙角”,从谷歌挖来Albert Lee执掌公司发展

华尔街见闻官方 浏览 3446

郑中基疑似新恋情,和异性现身游乐场

素素娱乐 浏览 2741

1.78万亿宁德时代牵手“张雪”,造出电摩给谁骑?

野马财经 浏览 1665

外观设计风格独特 本田0 α原型车发布

车质网 浏览 3605
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1