关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者3028人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曝曼联与沙特谈B费转会价格!B费想自己主宰未来,拜仁或加入争夺

罗米的曼联博客 浏览 3198

美国脱口秀主持人讽刺特朗普:他演都不演了

环球网资讯 浏览 8245

全红婵家建了新楼,哥哥直播卖菠萝被骂吃软饭

陈意小可爱 浏览 1823

争夺女性用户,李想抢不过雷军

字母榜 浏览 3208

范雨林:实力硬汉却不红,娶普通人低调过日子

失宠的小野猪 浏览 2079

泽连斯基:乌美就领土问题讨论6.5小时

每日经济新闻 浏览 2596

日本大妈的穿搭技巧太绝了!照着学,随便穿也能显年轻10岁

静儿时尚达人 浏览 2802

闫学晶和儿子接连道歉 儿子连说两遍"娘的错儿子担"

北京日报 浏览 12553

俄称已接近解决乌克兰危机 但不会在两个问题上让步

上观新闻 浏览 1935

中秋看热巴的嫦娥装,又双叒叕被撩到了

时尚COSMO 浏览 2622

每天一秒“续命”签到,8块钱可享“失联预警”,年轻人为啥能接受“死了么”?刚需!

大象新闻 浏览 2132

新疆98-56大胜送四川18连败,凯文-哈里斯19+7+3,纳托尔15分

懂球帝 浏览 1985

华为 nova 14 Pro / Ultra 预计今年 12 月升级支持 AI 辅助构图

IT之家 浏览 3075

足球报:J联赛改为跨年赛制,将对降雪地区俱乐部补贴50亿

懂球帝 浏览 3154

鸿蒙智行"9系"扩容 首款MPV智界V9来了

网易汽车 浏览 2507

坑惨!史上最大投资欺诈案,让汇丰三季度少赚78亿

财通社 浏览 3017

A股2025年分红额创历史新高 分红次数居前上市公司名单一览

财联社 浏览 2314

姚晨怒批倍速看剧:观众不该背锅

小白趣味屋 浏览 2129

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 8952

记者:切尔西曾询问过范戴克的情况;目前考虑冬窗引进新后卫

懂球帝 浏览 2115

未婚未育男子将遗产留给外甥遗嘱却写错名字 法院判了

环球网 浏览 8629
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1