关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2966人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

砸1亿元跨界,百亿巨头老板电器杀入机器人赛道

尺度商业 浏览 1999

入选全明星总次数:詹姆斯22次扩大优势,贾巴尔科比分列二三

懂球帝 浏览 1837

《镖人》直接让陈丽君补拍而非换脸,投资达7亿

芊手若 浏览 2071

俄称已控制红军城和沃尔昌斯克

国际在线 浏览 2637

相同的3nm工艺:天玑9500要比第五代骁龙8至尊版便宜50%以上!

快科技 浏览 3238

上汽通用五菱2025年累销超163.5万辆 新能源年销首超百万

网易汽车 浏览 2255

从胶体物理到创新药,南科大团队提出大分子药物稳定新理论

DeepTech深科技 浏览 2072

希腊航运巨头28岁女继承人死于虫咬 误诊细节披露

新民周刊 浏览 14913

何穗:新生亦重生

时尚COSMO 浏览 1196

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 1427

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界 浏览 2854

黑吃黑!骗走全球36亿的“币圈割王”,被精准猎杀

大猫财经Pro 浏览 2388

黄金、白银价格暴涨暴跌,投资者要警惕暴富“陷阱”,戒除豪赌心态

时代周报 浏览 1899

阿特金森帅位岌岌可危!上季当选年度最佳教练 曾获骑士老板力挺

罗说NBA 浏览 2409

活塞112-105复仇绿军迎4连胜,坎宁安32+10,布朗空砍34分

懂球帝 浏览 2386

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

静儿时尚达人 浏览 1156

为什么她们穿粉色很好看?

Yuki女人故事 浏览 2098

升东部第二!绿军轻取公牛获4连胜 西蒙斯27分普里查德21分

醉卧浮生 浏览 2198

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

伊周潮流 浏览 2973

以部长:已接回人质 必须重启战争打开加沙"地狱之门"

看看新闻Knews 浏览 3173

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

封面新闻 浏览 8746
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1