关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位10362人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宁波大学生团队将玩具熊"送"上2.8万米高空 校方回应

上游新闻 浏览 79362

特朗普寻求加快大型电力项目,以满足AI需求

华尔街见闻官方 浏览 747

“渣女裙”out!今秋这15条裙子正流行!

Yuki女人故事 浏览 707

关晓彤穿白衬衫亮相巴黎时装周

王鱼鱼爱扒娱乐 浏览 18512

快讯|2023年度网络安全报告发布:供应链等领域威胁加剧

网易科技报道 浏览 11879

多家高校发公告将暂停使用微信支付,腾讯回应

IT之家 浏览 14762

虚假宣传!任泽平宣称能生发防脱的洗护产品被处罚

界面新闻 浏览 11755

东晋的开国皇帝和灭国皇帝各是谁?东晋为何走向灭亡

趣看热点 浏览 24907

夏朝是中国第一个朝代吗?

趣看热点 浏览 24352

泽连斯基最重要任命遭质疑:乌军新总司令家人仍在俄

红星新闻 浏览 11702

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 4112

孙正义"踩雷"!知名社交平台突倒闭:曾估值超80亿

每日经济新闻 浏览 14733

杜兰特推翻字母哥,哈登力挽狂澜助篮网掀翻东部第一

趣看热点 浏览 24456

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 127

卢靖姗素颜不穿内衣大胆出镜!北京豪宅内景曝光

盖饭娱乐官方号 浏览 18056

小米官方下场辟谣:网传售价为假

21世纪经济报道 浏览 12054

蔚来辟谣:奔驰纯电车将与蔚来共享换电站消息截图系伪造

IT之家 浏览 15422

特朗普:达不成协议 哈马斯将遭“彻底消灭”

环球时报新闻 浏览 146

身高1.8米丹麦女王退位 被称为"中国人民的老朋友"

极目新闻 浏览 76818

卷翻了!刘强东砸100亿 向拼多多开战!

中国基金报 浏览 18431

以为丁真在西藏丁真是四川小伙,四川:原来爱会消失

趣看热点 浏览 25466
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1