爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

俄军中将在汽...

笔在手中，镜...

媒体：放弃全...

地平线苏箐：...

震惊世界的3...

解密福建舰电...

放不下身段就别扮丑，张嘉益告诉你，什么叫敬业不糊弄观众

小米新车曝光！雷军的致命子弹，射向李想和余承东

印度迎来最重要的一位客人

推广|| 用了好几年才推荐，这件单品真的值得投资

春节互联网大厂红包大战背后是AI流量密码？

理想汽车段吉超：造车这件事，可以借鉴零售业的胖东来模式

德媒封面：5位欧洲领导人手持武器配文＂唐纳德够了＂

鲁本-迪亚斯：经验告诉我们，如果不在最佳状态就无法夺冠

演了一辈子警察却穷得靠老朋友刘丹接济

“虚胖”的高德，不像地图了

近7场1胜6负，河床近期战绩非常糟糕

2026春夏八大流行趋势，早穿早美！

普京再表态：俄罗斯不考虑重返G8，这与乌克兰局势无关

高市早苗曾叫嚣台湾有事日本必入

配激光雷达+磁悬浮底盘，深蓝L06将于11月18日上市

金鸡国产电影展｜片单发布：百廿回眸，新程再启

蒋欣节目中直言自己没人追，理想型竟然是他！

伊朗外长折返伊斯兰堡内情披露

吸职工血、吞救命钱，42岁的她如今沦为过街老鼠

阿斯：皇马想延续阿拉巴和吕迪格的成功，以免签的方式签中卫

女子患小脑萎缩症加重前男友复合帮她完成100个心愿

老兵们打赢了第一仗，但真正的战争是整个赛季

尼克斯129-101送黄蜂7连败，布伦森33分，哈特22+8+7

中国游客到迪拜参加婚礼被困：目睹导弹从上空飞过