关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12987人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 1284

媒体:郑丽文"由绿转蓝"成功逆袭 支持基础系三股力量

上游新闻 浏览 6224

“复古运动风”今年秋天太流行了,这样穿减龄又好看!

LinkFashion 浏览 1432

牛弹琴:菲总统在台湾问题上玩火 中方的回应很不客气

上观新闻 浏览 77298

不算特斯拉,美国只完成充电桩目标的3%

汽车商业评论杂志 浏览 12810

佟丽娅晒海滩美照 化身执灯少女超温柔

深剖娱乐圈 浏览 20557

假期重磅!委内瑞拉局势影响多大?AI、商业航天、智能驾驶都有大利好

看财经show 浏览 349

新能源购置税“末班车”,上还是不上?

浙江车网 浏览 1149

京东工业港股上市首日平收,收报14港元/股,为刘强东第六家上市公司

红星资本局 浏览 750

荣梓杉出轨约妹照曝光!与李禹熹控诉时间吻合,还曾要求对方删照

萌神木木 浏览 1356

雄安新区党工委书记张国华已任河北省政协党组书记

上观新闻 浏览 75288

不太准!亚历山大上半场9中3得到10分1板3助2帽

直播吧 浏览 13080

涉诉被冻结20万股权?汪小菲成被执行人,麻六记张兰添新烦恼

时代周报 浏览 18475

杨振宁17年前的演讲发人深省:争夺国际话语权,需要中国人的创新精神

上观新闻 浏览 1277

24年历史数据揭秘:龙年首个交易日,A股能否“龙抬头”?

第一财经资讯 浏览 13207

重磅寄语!十大基金公司掌门人发声

中国基金报 浏览 20780

诺贝尔文学奖得主迷恋中国 要求全家改用筷子吃饭

中国新闻周刊 浏览 1465

蔚来年底盈利:超越短期目标,重塑自己的竞争力

百姓评车 浏览 1368

与秦亦铭外出被拍疑恋爱 娜扎方回应

网易娱乐 浏览 15520

知名上市公司创始人被指长期家暴,妻子被打断7根肋骨,本人回应!

每日经济新闻 浏览 17133

帕多瓦诺:我为图多尔感到遗憾;让我选新帅绝对是曼奇尼

懂球帝 浏览 1212
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1