关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012868人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外资公募绩优产品持仓曝光!

券商中国 浏览 3004

徐彬:接到狼队电话以为诈骗 不想等25岁出去 邵佳一让我看淡金钱

我爱英超 浏览 1870

AI杀入美股,DeepSeek又是第一!港大90后开源,AI股神人人都能造

新智元 浏览 3010

拉斯帕多里:意大利拥有成功所需的一切;我对加盟马竞很满意

懂球帝 浏览 2623

墨西哥总统宣布将向古巴提供援助并推动恢复石油供应

上观新闻 浏览 1764

女生晒春运"出国回家"攻略:连飞俄两地再坐船回黑龙江

上游新闻 浏览 21601

渝超北碚队违规使用中乙球员,组委会:正在调查,将及时处理

懂球帝 浏览 3171

限时换新价11.98万 第三代蓝电E5 PLUS正式上市

网易汽车 浏览 2575

“这个颜色”今天春天又火了!这样穿好看又减龄

LinkFashion 浏览 1060

马斯克星链成缅甸电诈“利器”,美国会已启动调查

界面新闻 浏览 3214

98年翻版金城武,“正统男港星”终于又出现了

时尚COSMO 浏览 2442

圣桐特医再度递表 财务紧绷难解

北京商报 浏览 2426

2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

蜗牛车志V 浏览 2130

50+女人快跳出“扮嫩”误区,学会4个技巧,就能穿出高级

静儿时尚达人 浏览 2983

紫牛头条|“龙虾”控制微信发红包传言是玩笑,全民养“虾”让不少网友产生“AI焦虑”

扬子晚报 浏览 1224

媒体:中方反制日自卫队前高官 令人想起"白团"终失败

新民周刊 浏览 17794

刚刚 | “死了么”APP征名!

天津广播 浏览 2030

先L3还是直接L4?国内车企还在争论,特斯拉已经“空车”上路了

Autolab 浏览 2402

OpenAI ChatGPT自动切换严格模型处理情感话题,用户却不知情

IT之家 浏览 3855

关税预期与矿山停产“共振”,伦铜首次突破1.2万美元再创历史新高

华尔街见闻官方 浏览 2420

皇社球员阿兰布鲁:要把绝杀进球献给经历艰难时刻的委内瑞拉

懂球帝 浏览 2142
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1