关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12988人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿门:我之前一直是詹姆斯、威少和沃尔球迷,后来我喜欢隆多

懂球帝 浏览 801

2026赛季进军F1!奥迪官方:决定完全收购索伯车队100%股份

直播吧 浏览 12726

巴基斯坦夜袭阿富汗边境地区 打死至少70名武装人员

新华社 浏览 1491

张翰谈恋爱时曾三年半不拍吻戏,那么张翰有几个前女友呢

趣看热点 浏览 28505

烧央行废政府,彻底自由化,阿根廷逆天候选人赢下初选

郎club 浏览 14916

小鹏汽车正式登陆卡塔尔 多款产品亮相

网易汽车 浏览 471

以色列总理称拒绝哈马斯提出的停火要求

央视新闻客户端 浏览 12734

AI眼镜,大厂第一战

脑极体 浏览 840

奥斯卡社媒发文:重要的客场拿分

直播吧 浏览 15995

夏天的白色系 这样穿太高级了

LinkFashion 浏览 16633

瓦格纳负责人普里戈任动向成谜 旗下公司发声

界面新闻 浏览 16548

从万人偶像到幕后导演:赖冠霖的叛逆转身,撕开了内娱多少虚假?

黄色的泥土 浏览 218

名利双收的成龙,每天为43岁的儿子操碎了心!

叨唠 浏览 508

中国人自己的敞篷跑车来了!腾势Z敞篷版曝光

优视汽车 浏览 1087

“老登股”列传I:海天味业,匆匆忙忙跌跌撞撞这五年

锦缎研究院 浏览 1471

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 1205

海空英雄高翔逝世 曾驾驶歼-6打爆美军机

澎湃新闻 浏览 178

贵州茅台的盈利会下降吗?

锦缎研究院 浏览 288

瓜帅:我确信塞门约很出色;进10球表明了我们对对手的尊重

懂球帝 浏览 156

男子下车救人被网友误会成是"肇事逃逸" 警方出面澄清

封面新闻 浏览 21798

权力重构?泽连斯基亲信部队高层遭反腐

浏览 4920
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1