关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013280人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智能化升级 新款卡罗拉锐放限时售9.68万起

网易汽车 浏览 3089

普通人秋天就该这么穿,准备几件黑色单品和牛仔服饰,简约又百搭

静儿时尚达人 浏览 3503

新势力做了这么久豪车 为什么只有尊界卖爆了?

差评XPIN 浏览 2713

赛英电子治理“黑洞”:IPO前人事动荡,保荐机构入股,独董适格性存疑|读懂IPO

时代周报 浏览 2596

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 2335

走过那个夏天,甜茶终于站上金球奖之巅

时尚COSMO 浏览 2021

富勒姆怒斥曼联第一球不应存在,炮轰天大误判!英超官方解释原因

罗米的曼联博客 浏览 2284

美被指向以色列通报对伊朗行动准备进展

每日经济新闻 浏览 2358

包工头把交警儿子做进工资表冒领工地工资:我欠儿子钱

大风新闻 浏览 3696

邮报:纽卡中卫丹-伯恩遭遇肺穿孔和肋骨骨折,将缺阵六周

懂球帝 浏览 2826

迪士尼将对OpenAI进行10亿美元股权投资

第一财经资讯 浏览 2413

397场,凯尔-沃克追平英超历史边后卫首发次数纪录

懂球帝 浏览 3463

“10亿只是入场券”:资本疯狂抢筹具身智能,今年还没过半,融资已翻番|深度

红星资本局 浏览 4

丰田全新跨界轿跑亮相!新增激光雷达,轴距近2米9,续航超600Km

小史谈车 浏览 2845

把64T算力塞进家庭!萤石发布AI CoreX智能大模型主机

快科技 浏览 606

朱丹新年晒全家福,儿女戴眼镜长相很一般

疯说时尚 浏览 2719

微胖女孩冬天怎么穿衣?看看这27套冬季穿搭LOOK,保暖又显瘦

静儿时尚达人 浏览 2757

切费林:我认为球员在赛季结束后,至少应该有一个月假期

懂球帝 浏览 3301

泰柬冲突急转直下,世界三个没想到

牛弹琴 浏览 2732

2026年量产 特斯拉Cybercab将于进博会首发

车质网 浏览 3418

主打运动与智能 零跑Lafa5内饰首发亮相

网易汽车 浏览 3623
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1