关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯11362人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拉夫罗夫:瓦格纳事件后 俄变得更强大

环球网 浏览 14476

保险|未按规定使用经备案的保险条款 泰康在线被罚11万

网易财经 浏览 11099

美防长“瞒报住院”或暴露美军指挥链风险

环球网资讯 浏览 11614

20万级纯电SUV,该选飞凡R7还是小鹏G6?

1号车盟 浏览 11716

车企价格战年底再升级:本月近20个品牌参战,小鹏新车上市不到半年就降价

澎湃新闻 浏览 11978

津媒:联赛结束后津门虎不会立即放假,教练组将继续安排训练

懂球帝 浏览 12360

一加 15 真机曝光,设计风格延续一加 13T

IT之家 浏览 284

记者:米兰免签波波维奇的情况变得复杂,球员也被推荐给拜仁

懂球帝 浏览 11580

别猜了,宝总最后跟我在一起了!

伊周潮流 浏览 12204

后排配娱乐屏/还有拖挂资质 理想i6将于9月26日上市

网易汽车 浏览 285

迪士尼第三财季营收223.3亿美元 Disney+订阅用户数低于预期

界面新闻 浏览 13075

瑞泰人寿任期超六年总经理离职!前三季净亏0.39亿,稳住局面靠什么

北京商报 浏览 11800

马拉戈:意大利惨败瑞士像开玩笑 斯帕莱蒂感觉被场上球员背叛了

直播吧 浏览 9893

南安普顿官方:与主帅拉塞尔-马丁续约3年,上赛季带队冲超

直播吧 浏览 9624

2024上半年“上桌咖”观察:小生古偶内卷,小花自行设席

仙女事件簿 浏览 9660

动作不断制造事端 菲船只再度非法侵闯仁爱礁

环球网资讯 浏览 13294

5-1狂胜仍不敢怠慢!法鹰欧冠逆天赛程:马竞利物浦那不勒斯巴萨

直播吧 浏览 327

日本研究运输机发射远程导弹 可变身战略轰炸机

澎湃新闻 浏览 13578

微软、动视暴雪要求美国法官加速处理 FTC 案件

IT之家 浏览 14892

这么穿,还怕十里没“桃花”?

芭莎男士 浏览 18290

众好友齐聚为baby庆生 黄晓明一心做“围观群众”

网易娱乐 浏览 25744
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1