关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者3940人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球1~8月电池装机量,韩系继续败退

汽车公社 浏览 4218

杨超越最新状态曝光!身材颜值全满分!

草莓解说体育 浏览 4193

看了隆妮表演才知道,观众都冤枉杨幂了?

霁月文娱阁 浏览 4236

VOGUE盛典太抓马!刘亦菲压轴出场,大合影杨幂扭头表情尴尬

Yuki女人故事 浏览 4158

纯电续航215km 极狐阿尔法T5增程版官图发布

车质网 浏览 3391

腾讯回应元宝崩了

第一财经资讯 浏览 2810

傅利叶:未来1-2年将脑机接口引入机器人康复训练,提升治疗效率

澎湃新闻 浏览 2896

消息称鸿蒙智行均价近 40 万元,每 2 分钟卖一台车对市场冲击大

IT之家 浏览 4029

谷歌间接承认 Tensor G5 芯片 GPU 问题

IT之家 浏览 4024

隐形大佬入主3年后,紫光集团怎样了?

华商韬略 浏览 4249

以AI治AI 推动智能向善 巨量引擎商业安全开放日在京举办

一点财经 浏览 4056

江一燕8年前与赵汉唐因戏结缘 最后同框在今年4月

萌神木木 浏览 3969

深铁再救万科220亿,暗藏的动作太多了

大猫财经Pro 浏览 3462

场均14.3分!马拉加球员卡利诺斯基当选本届洲际杯MVP!

直播吧 浏览 3964

吴建豪:一位复古“老餮”的用心律动与生命赤诚

三石一声 浏览 3200

健康活到100岁,科学能做些什么?@U35张汉林试图寻找衰老背后的“隐藏逻辑”

上观新闻 浏览 3195

全球股市遭遇“黑天鹅”,A股会跌出“黄金坑”吗?

郭施亮 浏览 4409

微软团队突破性研究:AI网页助手终于学会在新网站"随机应变"了

科技行者 浏览 2921

透视四川政府工作报告:向“第四极”加速奔跑

尺度商业 浏览 2779

快手“沦陷”之夜:1.7万僵尸账号

影像温度 浏览 2696

何晴病重照流出,儿子跟前夫生活病中无亲属照顾,人生末路显凄凉

不八卦会死星人 浏览 3442
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1