关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012230人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 1964

理想汽车下摆臂异响补偿方案发布月余,多位车主投诉称遭区别对待

澎湃新闻 浏览 3344

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

北京日报客户端 浏览 3230

财务报告存在错报!联创光电及董事长被警示,此前公告董事、监事被留置

红星资本局 浏览 2427

未来四个月,汽车市场的目标增速-11.82%?

DearAuto 浏览 3228

给韩国人一点小小的咖啡因震撼

Vista氢商业 浏览 331

奔四奔五的女人,冬日掌握了这些穿搭宝典,才能优雅不冻人

静儿时尚达人 浏览 1682

伊姐周六热推:电视剧《亦舞之城》;电视剧《时差一万公里》......

伊周潮流 浏览 1828

小儿子拜师少林寺 邹市明称3个儿子没有一个子承父业

环球网资讯 浏览 8089

拒15亿,Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创

机器之心Pro 浏览 2550

现在宝马5系只要30万出头!中期改款前脸大改,这颜值值得等~

蜗牛车志V 浏览 1190

50岁女性冬季穿衣指南:避开 2 大禁忌,这样得体又时髦

静儿时尚达人 浏览 1829

81岁“中国刻蚀机之父”拟减持:已从外籍恢复为中国籍,为办理税务需要

红星资本局 浏览 1454

雪佛兰会退出中国市场吗?

正在说车 浏览 2486

剧组撞死猫风波持续发酵

小撇说事 浏览 1916

比亚迪成为全球首家达成1400万辆里程碑的新能源车企

财闻 浏览 2521

五日内三家齐发,武汉企业接连闯关港股

虎投邦 浏览 2039

陆毅女儿漂亮到认不出!年仅16岁身高超一米七,长相神似陈都灵

温柔娱公子 浏览 2607

惠普暗影精灵11《英雄联盟》典藏版月底开售,海克斯金色线条装饰

IT之家 浏览 2398

申花2战柔佛全败!亚冠客场5年不胜,东亚区排第10,延续4魔咒

奥拜尔 浏览 2211

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 1661
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1