关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4073人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宁愿净身出户,也要与闫妮离婚的邹伟现状如何?

律便利 浏览 3929

智谱正式发布并开源混合思考模型GLM-4.7-Flash,供免费调用

财闻 浏览 3102

美政府停摆15天白宫放话要裁1万人 女法官颁令叫停

红星新闻 浏览 9415

2026款奔驰GLC AMG 43 4MATIC上市 售58.9万

车质网 浏览 3587

李小冉回复孙艺洲《心愿便利贴》:好皮的孩子

韩小娱 浏览 1381

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

伊周潮流 浏览 4120

福特中国,需要的不止是更换“公关一号位”

电动势 浏览 2273

华为Mate 80系列手机获HarmonyOS 6.0.0.120系统重要补丁推送

IT之家 浏览 3621

又一部大爆剧出现了!

伊周潮流 浏览 1377

刚刚!利好突袭,直线爆拉!

中国基金报 浏览 4214

疑一则广告惹祸 特朗普宣布终止与加拿大所有贸易谈判

财联社 浏览 10132

从0度穿到20度,这件衣服才是今年冬天的“顶流”!

LinkFashion 浏览 3513

《理想足球运动员画像》:威廉·帕乔,低调、谦逊且令人印象深刻!2026年5月27日

绿茵情报局 浏览 322

缅北四大电诈头目被押解回国 特写画面首次披露

大风新闻 浏览 8906

张子宇加盟首次未登场:前两场正负值均最差 山东女篮加时胜江苏

醉卧浮生 浏览 3275

美军在高速公路实弹军演 万斯安保车遭炮弹碎片击中

红星新闻 浏览 9757

马斯克摊上事了,旗下公司被多国调查封禁

21世纪经济报道 浏览 3316

让城市有“面子”更有“里子” 建设韧性城市行动方案发布

央视财经 浏览 4272

美联储,重磅来袭!降息传出大消息

券商中国 浏览 4851

天数智芯成功登陆港股 四川资本赋能国产算力新突破

封面新闻 浏览 3211

今年流行的这件“短外套”美爆了,怎么搭都优雅贵气!

LinkFashion 浏览 3563
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1