关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷10145人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

斥资20亿帮“上铺兄弟”接盘,王兴凭何如此信任他?

华商韬略 浏览 14674

利物浦女足前主帅比尔德的葬礼举行,超过六百人参加

懂球帝 浏览 357

2025秋冬一定要拥有的4款包包,怎么搭都好看

Yuki女人故事 浏览 39

萨顿:如果奥斯梅恩真有野心,他会优先考虑枪手而非蓝军

直播吧 浏览 11885

美国歌手Lauv小牌大耍!区别对待中韩歌迷惹众怒,中国演出还假唱

萌神木木 浏览 10344

曼联警告球迷:唱“切尔西租男”可能会被警方逮捕

直播吧 浏览 1002

美记赞穆雷从水拉变萌神!波普:他是关键先生 洛瑞也被其打服

颜小白的篮球梦 浏览 16036

共和党女议员发表争议言论 认为美国应该"一分为二"

环球时报新闻 浏览 231071

"茅系股"市值一天"回血"4000亿 机构:5年5倍股在这个方向

中国证券报 浏览 25944

正式上线,GitHub向所有用户开放全新代码搜索引擎

机器之心Pro 浏览 17631

模仿苹果应用商店,OpenAI正式推出GPT商店

网易科技报道 浏览 12066

人类50年消灭世界三分之二动植物,我们已经走上了命运的十字路口

趣看热点 浏览 25053

韩媒:韩国站到对抗中国最前沿 往后一看美日却消失了

环球网资讯 浏览 91649

摩尔庄园为何能刷屏,他是很多95后和00后的美好回忆

趣看热点 浏览 25167

比亚迪驱逐舰 05 荣耀版上市,7.98 万元起

IT之家 浏览 11506

1-0!中超爆冷,成都83分钟遭绝杀,国足门将黄油手,保级队首胜

环太平洋老正太 浏览 11386

小米品牌安全官微更名,“小米法务部”正式上线

IT之家 浏览 11639

平地惊雷!詹姆斯罚球线起步滑翔单臂隔扣乔治2+1

直播吧 浏览 11888

赵又廷高圆圆撇下女儿过二人世界?被偶遇看话剧

娱絮 浏览 18892

世体:拉波尔塔周一中午抵达体育城,向球队重申支持和鼓励

懂球帝 浏览 135

车市价格战背后,真正的厮杀才刚刚开始

深蓝财经 浏览 18667
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1