关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位10984人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

朱孝天方回应被踢出F4,刚合体时就挺不合群,如今开公司当老板

萌神木木 浏览 453

实拍体验本田Super-ONE PROTOTYPE:能量产的极致超级K-Car

驾仕派 浏览 487

加码!西媒主编:沙特方面为莫德里奇报价提高到3年2亿欧

直播吧 浏览 16020

又摊上事!德云社被处罚,到底动了谁的奶酪?

盖饭人物 浏览 16676

今夏就要穿“ 豆腐鞋 ”,巨火巨显腿长 !

In风尚 浏览 15500

哈马斯官员称将“很快”回复停火提议

新华社 浏览 12068

大电池增程成风,车企在堆料自嗨?

帮宁工作室 浏览 342

张柏芝仅用一招就让自己口碑暴增?

娱乐圈笔娱君 浏览 640

有野心有手段的大女主有多能打?

雪豹财经社 浏览 858

冯柳新进4家公司!段永平偷着乐...

格隆汇 浏览 18006

白鹿baby不和风波升级!恩怨越扒越多于正也下场

叶公子 浏览 16463

媒体:中日韩正在谈三边货币互换

澎湃新闻 浏览 8074

朝鲜新型隐身护卫舰高清照公开 配备战略巡航导弹

澎湃新闻 浏览 14605

"网红罗大美遇害案"新进展:三名被告人均提出上诉

扬子晚报 浏览 6961

环球小姐赛事双东家被签发逮捕令

土澳的故事 浏览 132

春运诈骗,年轻人被坑得水深火热

她刊 浏览 12642

30.78万元起!领克新09EM-P实力几何?

汽车投诉网 浏览 12446

冲绳知事7月将第三次访华:冲绳绝不能再次沦为战场

环球网资讯 浏览 15339

俄罗斯一军火库发生爆炸,爆炸碎片最远可波及20公里内区域

趣看热点 浏览 25840

男人的容貌焦虑来了 天价整容"猎人眼"

新欧洲 浏览 16829

科瓦奇谈客战拜仁:在安联球场一味退守通常不能得到好结果

懂球帝 浏览 850
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1