关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位10972人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英王子因萝莉岛被死人"指控" 前妻与爱泼斯坦猛料被扒

新民晚报 浏览 6517

囤加碘盐防不了核辐射

界面新闻 浏览 14283

ofo戴威二次创业败走美国,咖啡馆仅剩一家

中国企业家杂志 浏览 12747

董昕辞任中国移动执行董事兼首席执行官,已调任广电总局

界面新闻 浏览 12417

能成为下一款“Model 3”? Rivian R2将于3月7日亮相

乐选爱车 浏览 12359

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 523

刘嘉玲在接受某节目采访时,爆料何超莲与窦骁已经隐婚

趣看热点 浏览 26312

消息称任天堂新主机将不会是Switch正统后继机型

IT之家 浏览 18946

盾安环境高溢价收购上海大创 亏损标的业绩承诺如何兑现

时代周报 浏览 10603

手表鞋子坏了别急着丢 让"小修小补"回归生活

i金山 浏览 16463

邱毅:两岸统一的脚步越来越近

环球网资讯 浏览 305

vivo严打“黑公关”:索赔近千万!

互联网那些事 浏览 777

韩媒:韩政府发布新版国安战略文件"写明朝核威胁"

环球网资讯 浏览 16019

章子怡醒醒给汪峰打电话:哈尔滨冷记着多穿衣服

观察鉴娱 浏览 349

乌高官声称“已将英国导弹用于打击俄腹地目标”

参考消息 浏览 10524

深圳女副区长白发照走红 有网友质疑她为显时尚"挑染"

上游新闻 浏览 120527

郎酒9月发布的会员尊享酒,为何成懂酒人的优选?

金角财经 浏览 754

华为把问界“还给”了赛力斯

华尔街见闻官方 浏览 10466

新年首飞,战味浓!

环球网资讯 浏览 12409

蔚来乐道汽车迎 11 万台新车交付,距离 10 万台里程碑仅 13 天

IT之家 浏览 551

好长不长,好短不短!向往的生活第五季开播啦!

趣看热点 浏览 26881
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1