关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯11361人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赴港开户热潮再起:有人排队7小时 黄牛2880元代预约

中新经纬 浏览 91058

“杂交水稻之父”袁隆平逝世,世界上第一个成功地利用水稻杂交优势的科学家

趣看热点 浏览 24625

一心堂反复违规背后:实体药店盈利难题未解

北京商报 浏览 10136

松弛的北京中产,占满了朝阳公园的草皮

INSIGHT视界 浏览 15250

Linus新年首骂:和谷歌大佬大吵4天,“你的代码就是垃圾”

量子位 浏览 11328

以高官“鼓励加沙巴勒斯坦人迁移”引争议

环球网资讯 浏览 11724

被记者三次问及加拿大是否已申请加入“奥库斯”,加防长回避

环球网资讯 浏览 17671

气质女人春季最值得准备的三款单品,时尚又百搭,过了40岁也能穿

Yuki时尚酱 浏览 11316

李靓蕾庆37岁生日 许玮甯出席侯佩岑因工作没现身

素素娱乐 浏览 18557

皇马真GOAT=76岁老佛爷!治下已斩60冠军!即将官宣姆巴佩加盟

风过乡 浏览 11506

李靓蕾营业首次揭露婚变后生活 谈官司胜诉却翻车

扒圈818 浏览 15553

美国要求沙特在经济和军事上与中国保持距离

环球时报国际 浏览 13787

马拉多纳死因调查报告出炉,医疗团队被指严重失职

趣看热点 浏览 24136

足力健卖水饺,吃干榨净老年人?

斑马消费 浏览 337

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 279

"乌克兰战俘被枪杀"视频疯传 泽连斯基:将找到凶手

环球网资讯 浏览 102034

梅西带飞?迈阿密的卡伦德&克雷马斯基首次被选入美国初选名单

直播吧 浏览 13169

团队篮球!雷霆半场全队送出24次助攻 创队史半场纪录

直播吧 浏览 11573

白敬亭带着无限流杀回来了,这剧真的很好看!

伊周潮流 浏览 268

涉嫌欺诈发行股票罪!A股实控人夫妻被执行逮捕!曾动用92个账户爆炒自家股票,却血亏1200万……

每日经济新闻 浏览 14870

学会这几个搭配技巧 让你轻松穿出时髦感

八分搭配 浏览 15837
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1