关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2060人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

穿来穿去还是羽绒服最靠谱!配裤子裙子都合适,舒适自然保暖

静儿时尚达人 浏览 1294

监管部门再出重拳“反内卷”:严禁车企不正当价格竞争,比亚迪小鹏北汽等表态

北京商报 浏览 1421

看了日本主妇的搭配才明白,年纪大了这么穿,优雅又不油腻

静儿时尚达人 浏览 1018

苹果发布iPhone 17e,起售价4499元

澎湃新闻 浏览 117

巨人网络80后CEO张栋辞职 前任刘伟再掌舵

中新经纬 浏览 12977

从“百模大战”到“百镜大战”,AI眼镜成新焦点丨一克商评

封面新闻 浏览 1982

确认鹿晗和关晓彤分手,透露女方酒局没醉过

蕾爸退休日记 浏览 1341

航母“弹射三连”释放哪些信号

经济日报 浏览 2701

伊姐十一热推:电影《阿凡达:水之道》;电影《毕正明的证明》......

伊周潮流 浏览 1911

小S二女儿疑曝出恋情,在墨尔本和一男子游玩

小徐讲八卦 浏览 821

足球报:周金辉曾私宴塞蒂恩但他固执不改变,训练缺少强度

懂球帝 浏览 2237

以色列政府批准加沙停火协议

新华社 浏览 2089

蔡国强被指富士山放烟花遭拒 媒体发问:国内为何通过

上游新闻 浏览 23938

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro 浏览 1892

赵丽颖新剧收视走势差,表演短板全暴露,后续没存货半年没进组

萌神木木 浏览 1068

普通人真该看看这些穿搭!短上衣配裙子、颜色选好,自然得体

静儿时尚达人 浏览 2255

LG AI Research发布K-EXAONE:万亿参数模型挑战全球AI格局

科技行者 浏览 1035

阿莫林:利马已经接近参加合练;踢三中卫对马奎尔有好处

懂球帝 浏览 2064

前英超裁判:桑德兰绝杀切尔西的进球因越位应被取消

懂球帝 浏览 2034

她们冬天这样穿,真的很美!

黎贝卡的异想世界 浏览 1218

哈马斯代表团:与以色列间接谈判取得积极进展

国际在线 浏览 1931
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1