爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

美参议员就谷...

最新民调：超...

三星Gala...

300多个A...

西蒙尼：要变...

奇瑞QQ3量...

5人违规穿越鳌太线3人遇难:为规避罚款手机调飞行模式

松弛感穿搭太适合秋冬了，减龄又好看

梅根·凯利怒怼谷爱凌争议，揭露政客背后的偏见

摩恩电气深V之意

一夜进账244亿元！李斌靠爆款车翻身，破除蔚来倒闭魔咒，

梅克斯：多梅内克执教法国队时，根据球员的星座来排首发

限时先享价25.98万吉利银河M9黑金智曜版正式上市

XREAL 1S AR眼镜发布，全球首搭内容2D→3D自动转换

泰国使用F-16战斗机对多个地点进行空袭柬埔寨谴责

状态不佳，阿森纳对阵森林上半场8脚射门0射正

浪姐7乱成一锅粥，谁都没想到翻红担当竟然是她

置换抢购价9.99万元起捷途X70L正式上市

秋天怎么穿出时尚感？避开老气的着装方式，美得自然又大方

《数据周报97》：房地产何去何从？参考美日经验

福建发布人工智能扶持新政：拟对企业年度算力购买最高补助50%

国产新能源还在内讧，福特CEO已经吓破胆了：能让我们全军覆没

AI会取代考古学家吗？在这场沙龙中窥见人工智能对文保利用的影响

陈晓最新露面瘦脱相！新剧要和陈妍希对打，女方离婚后状态更好

麻省理工学院教授文小刚追忆杨振宁：他是近代物理的伟人

媒体：美伊紧张局势拉满沙特、阿联酋对美国＂亮红灯＂

最爱发钱老板开工刷屏：2小时订单破亿客户排队交钱

上海工厂生产廉价版特斯拉Model 3韩国开售

针对“美式讹诈”：中国为何率先发动反制？

44岁的宋慧乔面相变了！她的变美思路普通人也可以借鉴