关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者887人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

贾玲与韩寒:春节档幕后的资本局中局

刺猬公社 浏览 12481

美军遇重大伤亡 拜登政府发声明:不寻求与伊朗开战

环球网资讯 浏览 12846

“棕色大衣”今年冬天又火了,怎么搭都高级时髦

LinkFashion 浏览 249

长江证券:求解,新年经济

网易财经 浏览 12952

国防部:日方若胆敢铤而走险必将碰得头破血流

界面新闻 浏览 837

诺奖得主:特朗普自摆乌龙 系中国明朝以来最严重自残

澎湃新闻 浏览 6134

巴赫穆特激战之际 俄乌高官先后抵达作战前线

环球网资讯 浏览 19247

金价跌破3900美元 大学女生下跌时补仓结果亏得更多

每日经济新闻 浏览 12111

学会这几个搭配技巧 让你轻松穿出时髦感

八分搭配 浏览 17652

贪腐副省长被枪决 3名主要行贿人出狱后又培养代理人

长安街知事 浏览 75928

看玄彬孙艺珍这样撒糖,谁能扛得住

Yuki女人故事 浏览 659

全球首辆胶囊列车载人测试成功,有望2030年之前正式投产

趣看热点 浏览 25826

代码无需审核、数据随便喂,AI 正在催生下一场企业级灾难

IT之家 浏览 959

奥巴马带着妻女与好莱坞演员汤姆·汉克斯聚餐

译言 浏览 15855

郭磊:如何认识最新的出口数据和出口形势

首席经济学家论坛 浏览 1202

俄罗斯一军火库发生爆炸,爆炸碎片最远可波及20公里内区域

趣看热点 浏览 26259

不再有任何限制措施!微软:所有受支持设备都能升Win11 25H2了

快科技 浏览 1237

德约纪念逝去恩师忍不住落泪,现场打脸意大利网协主席

网球之家 浏览 934

欧阳娜娜怎么不算“审美天才”少女

时尚COSMO 浏览 410

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 967

普京指挥俄战略核力量演习 发射洲际弹道导弹

新华社 浏览 1105
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1