关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1011933人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

兴业消费金融:筑梦美好生活 扎实推进高质量发展

财经众议院 浏览 1164

最近很火的发型,原来这么简单!

黎贝卡的异想世界 浏览 1922

产品力再提升 全新雪佛兰Bolt EV新车图解

车质网 浏览 1968

梅德维德夫晋级中网男单八强

体坛周报 浏览 2706

新年将至 普京问候前线俄军:感谢英勇的所有人

看看新闻Knews 浏览 1172

秋天穿衣真的很简单,看看这些造型就有灵感,舒适简约又自然

静儿时尚达人 浏览 1930

北约建"无人机墙"彻底激怒俄罗斯 俄方强硬回应

上观新闻 浏览 38569

范曾与女儿、继子断绝关系 其与妻子新公司本月刚成立

红星新闻 浏览 18222

华为MateBook Pro电脑通过OpenHarmony 6.0 Release认证

IT之家 浏览 956

上年纪的女人买“裤子”,不妨按照这3个原则试试,显瘦时髦

静儿时尚达人 浏览 2252

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 1949

萨高大战流产!萨巴伦卡将挑战赛变授课堂,高芙被小白菜扫成服妹

网球之家 浏览 893

一城商行支行行长离开原岗位13年后被查

湘财Plus 浏览 978

小伙贷款30万炒"数字藏品" 共70多万充进平台打水漂

环球网资讯 浏览 4786

传奇数学家放弃美国高校终身教职 为00后中国女孩打工

新民周刊 浏览 16438

高盛建议高配中国股票,4000点会是A股牛市的新起点吗?

郭施亮 浏览 1154

女孩引产遭拒生女婴被医生"送人" 抱养方称捡弃婴露馅

澎湃新闻 浏览 8574

新年强势开局!AI需求叠加供给趋紧,存储芯片迎来集体反弹

华尔街见闻官方 浏览 1132

递交亮眼成绩单!中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 2021

慢镜头:莫塔不会回归尤文,但他的合同会影响尤文选帅

懂球帝 浏览 2019

马克龙要建欧洲有史以来最大航母 "掠食者"表述不寻常

新京报 浏览 28335
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1