关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3815人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊朗公开展示导弹 武装部队警告美国

极目新闻 浏览 1029

特朗普为美军袭击委内瑞拉附近海域“贩毒船”辩护

环球网资讯 浏览 4001

林子烨:被粉丝捧成“小张凌赫”,一场活动就塌房?

八卦三缺一 浏览 1107

比巴恩风更火的“富家千金风”来了!高级又气质

LinkFashion 浏览 2861

加斯佩里尼:意甲争冠?我知道有一些实力更强的球队

懂球帝 浏览 3250

《VOGUE》杂志内涵明星!势利眼、抢压轴,热巴杨幂隔空躺枪

萌神木木 浏览 3952

包贝尔老婆包文婧自曝,给儿子穿二手旧衣服

韩小娱 浏览 1442

7场贡献3球1助攻,麦肯尼当选尤文1月最佳球员

懂球帝 浏览 2730

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 9284

宗庆后母亲去世,娃哈哈百亿遗产案仍悬

蓝鲨消费 浏览 2773

金价跌破3900美元 大学女生下跌时补仓结果亏得更多

每日经济新闻 浏览 14318

为打造本地生活超级入口 高德再推新招提升平台活跃度

贝壳财经 浏览 3028

配激光雷达+磁悬浮底盘,深蓝L06将于11月18日上市

隔壁说车老王 浏览 3739

TA:曼联今夏额外借贷1.05亿镑用于引援,目前总债务6.37亿镑

直播吧 浏览 4694

当AI奖励模型开始"偷懒":字节跳动如何让它们跟上AI助手的步伐

科技行者 浏览 2784

埃尔法最大竞品复活了,这台新出的日系MPV有点酷!

汽车消费网 浏览 3717

赵丽颖坦白自己近期“消失”的原因

湘村大余 浏览 3809

‍2025年4部新片亏8亿,古天乐终于拿出这部大片

靠谱电影君 浏览 4021

近2万亿债务推进 出险房企提速化债

北京商报 浏览 3658

全球股市最强风口,彻底拦不住了?

财经锐眼 浏览 2735

“罗小黑”热度不减 中文在线尚未跑通IP

北京商报 浏览 3550
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1