关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯11702人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

明年上半年发布 奥迪Q6 e-tron Sportback官图曝光

网易汽车 浏览 9829

哈尔滨2名村干部遇害警方介入到底是怎么回事?案件最新进展

趣看热点 浏览 276481

从口袋PC到智能座舱:华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

快科技 浏览 179

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 180

日本加息,“可怕”的逻辑拆解

郎club 浏览 14126

熊园:9月进出口均走高的背后

首席经济学家论坛 浏览 131

荣耀最先提出端侧大模型概念 赵明:未来会和网络侧大模型合作

网易科技报道 浏览 14682

营收147亿的半导体资产遭冻结 闻泰科技:坚决反对

21世纪经济报道 浏览 178

林有慧曝与萧敬腾相恋细节 谈生子计划

扒虾侃娱 浏览 13774

A股:一定会有大牛市,只是这个大牛市不是散户想要的

资本百科 浏览 11329

免签,找工作!大批球员自由身,德赫亚、扎哈、阿森西奥

直播吧 浏览 14647

大坂直美:喜欢李娜的幽默感;她是最好的女子网球运动员之一

懂球帝 浏览 9735

回家了!吴昌泽现身辽宁主场训练,采访时谈总冠军戒指+今晚比赛

篮球资讯达人 浏览 12766

李铁案传递反腐新信号 教授:其或被判10年以上或无期

长安街知事 浏览 73414

陈梦圆满“复仇”!携王曼昱晋级女双半决赛,静待阵钱天一陈幸同

乒谈 浏览 11993

ESPN:德容已与巴萨就续约达成协议,他的薪水将降低

懂球帝 浏览 140

不好看的普通女生,如何让人误以为是美女?

Yuki女人故事 浏览 722

俄乌冲突近一周年 两国都宣称去年的经济数字比预期好

枢密院十号 浏览 91547

王坚:Sora意义非凡,只谈对短视频行业影响是羞辱它

南方都市报 浏览 10619

俄将讨论批准从远东线路向中国供气的法律草案

环球网资讯 浏览 17609

男子在火车上被杀 家属:嫌犯逃离未果 返回补了几刀

封面新闻 浏览 112665
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1