关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯11699人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鉴别渣男的重要性,建议女生保持清醒,远离渣男

Yuki女人故事 浏览 11757

菲方扬言就所谓"破坏性环境活动"起诉中国:已掌握证据

环球网资讯 浏览 76955

你也很铁!波杰姆斯基11中2&三分8中1 得到5分8篮板4助攻

直播吧 浏览 11900

外媒:北约官员提议乌克兰放弃部分领土换取入约

环球网资讯 浏览 14056

上新|| 春天的第一件衬衫买哪件?我帮你们选好了

黎贝卡的异想世界 浏览 11771

冯小刚也拉不动华谊兄弟

斑马消费 浏览 12008

上海被疯抢的580元“LV帆布袋”是个“假联名”?

Vista氢商业 浏览 14674

"被责令整改"鱼塘深夜被挖毁损失数百万 官方称不知情

红星新闻 浏览 87659

互联网正在被“膨胀的垃圾”毁掉

环球时报国际 浏览 11678

纳指收创新高:特斯拉涨超6% 市值一夜大增近2800亿元

每日经济新闻 浏览 62171

马斯克获得2023年度世界航天最高奖

鞭牛士 浏览 14650

这四件外套,承包冬天90%的时髦

Yuki女人故事 浏览 12343

从初心到亮剑 锚定“新汽车”的长安到底有多猛

网易汽车 浏览 11613

20万请曹姓明星带货3个月成交278元 公司起诉法院判了

都市快报橙柿互动 浏览 111994

eSIM手机,来了!

中国基金报 浏览 134

这双鞋太火了,怎么搭都好看

LinkFashion 浏览 15082

韩媒称三星先进封装技术落后于台积电,导致难以取得AI芯片订单

IT之家 浏览 14706

展开激战!击落战机!苏丹多地武装冲突升级

环球网资讯 浏览 14883

英国公主车内与丈夫亲亲,跟梅根的关系被热议

译言 浏览 18529

瓦格纳潜在继任领导人特罗舍夫不在坠毁飞机上

界面新闻 浏览 14012

主持人问吴京:您拍的《战狼2》拿到了50多亿的票房,这么多票房,能分多少钱

趣看热点 浏览 25991
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1