爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

＂用公权力为...

这四种风格的...

女孩被篮球砸...

这件衣服今年...

最新！货拉拉...

洛杉矶高层：...

美媒：“第一视角”功能无人机频现俄乌战场

胡润百富榜发布！刘永行、朱义、刘永好、刘汉元、张勇排川商前五

C罗国家队进球数历史第一，2021年欧洲杯葡萄牙2:2与法国队打平

为什么复旦MOSS大模型的中文水平不如英文？

检察官多次家暴妻子最后一次家暴后获评＂郑州好市民＂

默多克五婚妻子是分子生物学家前夫女儿都是亿万富豪

媒体：特朗普关税战半年市场没能打得开还弄丢了

国产“万吨大驱”直面“硬仗”

瑞银汪涛：2024年中国经济展望——在房地产下行中“企稳”

谁要搞垮农夫山泉？

想要一个不热的夏天离不开这些户外短裤

一场酣畅淋漓的“涅槃重生” 小鹏汽车破局后立

北控力挫南京豪取7连胜追平队史最佳纪录张帆6三分林葳20中6

神秘隐身机抵近琉球，日本没见过，F15J升空

跨省调查结束！被延期留置150天后，德州首富平安返岗

马塞利诺：虽然很困难，但我们想要击败尤文图斯

有反转？王力宏方发声否认李靓蕾在美国胜诉

月销破2万辆极狐年销翻番在望摸到准一线门槛

媒体：布林肯访华前与秦刚通话中方提前给其划出底线

辽宁舰正常演训日本为何炒作所谓“雷达照射”问题

烧央行废政府，彻底自由化，阿根廷逆天候选人赢下初选

1-6，3-6！朱琳连丢两盘不敌世界第一，温网惨遭一轮游

驱动绿色智算筑牢AIDC基石：华为携液冷热管理控制器TMU亮相2025CDCC大会

以媒：总理内塔尼亚胡计划下月访华其对美国失去耐心