关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位10121人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国家安全机关:坚决粉碎台湾情治部门渗透破坏

国家安全部 浏览 74853

国家发改委:确保迎峰度夏能源电力平稳有序供应

国家发展改革委 浏览 15244

今年的牛仔裙 主打就是长!

国际纺织品流行趋势 浏览 17611

拜登成首位因"种族灭绝共谋"被起诉的美国总统

参考消息 浏览 11609

售价或30万左右/豹5的又一对手 深蓝G318申报图曝光

EV视界 浏览 11654

2023长城汽车车多势重,围绕“智能新能源”赛道发力

天天汽车 浏览 11679

乌军:俄无人机“机敏难防”

参考消息 浏览 11364

80套简约又精致的连衣裙穿搭模板 承包这个夏天

巧百搭 浏览 15165

詹姆斯惊天隔扣 湖人替补席惊呆了!!!

直播吧 浏览 11224

曼城1-0领先利物浦!斯通斯破门,德布劳内角球助攻

直播吧 浏览 10553

复旦大学法学院学生在毕业典礼上挥拳打老师 院方通报

复旦大学法学院 浏览 61533

刚刚,工行、中行、建行同时官宣!

中国基金报 浏览 18297

汪小菲接孩子回京受阻!张兰曝大S要6000万保证金

萌神木木 浏览 14660

马航MH370重启搜索方案披露 囊括未探及新区域

红星新闻 浏览 82968

哈马斯官员称将“很快”回复停火提议

新华社 浏览 11215

俄罗斯工厂爆炸事故受伤人数升至60人、8人失踪

海外网 浏览 13533

吴绮莉公开父亲与女儿合影 小龙女仍无法原谅母亲

素素娱乐 浏览 15595

网曝大S犯癫痫住院具俊晔带钱跑路,真相"打脸"了

不八卦会死星人 浏览 17852

上影节红毯大PK!倪妮舒淇周冬雨比美

萌神木木 浏览 15385

中国男篮已抵达深圳 王哲林的脚伤已有所好转

直播吧 浏览 13622

韩媒:时隔5年韩美启动大规模联合登陆演习

环球网资讯 浏览 18550
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1