关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者1741人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

11.99至15.99万元 长安启源A06开启预售

网易汽车 浏览 2491

美军绑架马杜罗"原班人马"全部飞抵欧洲 新目标已浮现

依偎在角落 浏览 6716

被控与电诈集团有关,泰国财政部副部长辞职

环球网资讯 浏览 1847

大学副教授成老赖仍开宝马用新手机 一次餐费花8000元

新京报 浏览 6317

泉州市与宁德时代签署新能源电池生产基地项目合作协议

北京商报 浏览 569

复旦大学OpenNovelty:让AI成为学术论文同行评议的"火眼金睛"

科技行者 浏览 938

曲婉婷近照疑曝光!眼神闪躲像躲债

小徐讲八卦 浏览 846

入秋第一件打底衫!你买这3件,太好看了!

Yuki女人故事 浏览 1988

雷军在京喊话:共同抵制网络水军、黑公关

大象新闻 浏览 2016

突发!万科郁亮辞任

财通社 浏览 860

大爆冷!北京末节被轰30-13崩盘负天津 赵睿复出13分杰曼8中1

醉卧浮生 浏览 697

首次搭载Hi4-Z架构 全新坦克400上市售24.98万起

网易汽车 浏览 1704

牛弹琴:美欧直接开干 全世界看得目瞪口呆

现代快报 浏览 5076

英伟达CEO黄仁勋被授予2026年IEEE荣誉奖章,奖金高达200万美元

财闻 浏览 878

全智贤给了韩娱4年,归来还是0人能打?

时尚COSMO 浏览 2898

俄称今年已控制205个居民点 乌称对俄港口及战机发动袭击

极目新闻 浏览 2518

跻身世界第一梯队!这一行业,迎爆发风口

环球网资讯 浏览 1999

西安街头邂逅赵露思,美到让人不敢认

手工制作阿歼 浏览 2651

洪都拉斯3-0大胜海地,奎奥托、安东尼-洛萨诺建功

懂球帝 浏览 2024

通义实验室负责人周靖人成为阿里合伙人;小米澎湃 OS 全球版性能追平中国版 | 早资道

封面新闻 浏览 1334

有野心有手段的大女主有多能打?

雪豹财经社 浏览 1972
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1