关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者885人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

摩尔多瓦新总理:我们的目标是让俄军永远离开

观察者网 浏览 19356

国米客战那不勒斯:劳塔罗搭档博尼,德布劳内、巴雷拉出战

懂球帝 浏览 1075

国乒官宣!王楚钦孙颖莎领衔出战亚锦赛,战果影响伦敦世乒赛资格

乒谈 浏览 1910

乌克兰:已在克里米亚登陆实施特别军事行动

财联社 浏览 88276

武则天被逼退位!李显却不清算她还天天上门请安

趣看热点 浏览 26792

冬季如何穿的漂亮?看看这27套穿搭就有灵感了,优雅不臃肿

静儿时尚达人 浏览 547

孔蒂:上赛季我们的夺冠出乎意料,这赛季的目标是全力卫冕

懂球帝 浏览 552

中科大团队开发新型暖白光LED,最大发光效率接近理论水平

DeepTech深科技 浏览 12749

捷途纵横G700限时售30.49万起 轮端扭矩过万

网易汽车 浏览 1115

比赛日前瞻:强强对话接连上演,英超双红会谁能笑到最后?

懂球帝 浏览 13207

高能量唱跳歌手李斯丹妮的「12小时」,居然是这样度过的?

时尚COSMO 浏览 248

王思聪又换女伴了?和白富美吃火锅,女方气质好!

缘木不求娱 浏览 12270

从 Meta 拆解、苹果眼镜爆料,看「不科幻但好用」的 AR 眼镜|硬哲学

爱范儿 浏览 1159

生育率急剧下降 韩幼儿园变养老院

环球时报国际 浏览 12687

60岁无儿无女形象大变的张卫健,经历了什么

草莓解说体育 浏览 974

专家:自民党与公明党谈崩了 给高市早苗当头一记闷棍

澎湃新闻 浏览 1287

离大谱!一球员因不满转会费为15千克香肠而隔天退役

雷速体育 浏览 19290

美方被指仍在追截第三艘油轮 并拟增派力量强行登船

环球网 浏览 2

特朗普扬言:美国已经变成了一个真正的联合国

参考消息 浏览 1930

王诗龄晒国外贵族学校宿舍照,4人间又小又拥挤

娱小菡 浏览 19554

全球21队已锁定2026世界杯资格,阿根廷、巴西、日本、韩国在列

懂球帝 浏览 1291
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1