关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12981人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

见证历史,瑞银宣布收购瑞信;海外欠债9.8亿?张兰回应:被资本算计

证券时报e公司 浏览 19670

周杰的负面标签到底哪些是真的?

说历史的老牢 浏览 912

新版《保管合同(示范文本)》发布 进一步明确权责促进交易公平

央视财经 浏览 542

富士通FMV Note A A77-K3笔记本:保留蓝光光驱,搭载AMD 7735U

IT之家 浏览 1374

2026开年,就创造了10个“第一”,这国综后劲真大

娱乐圈笔娱君 浏览 237

中方连对美"重拳出击" 特朗普这才看清楚中国留了一手

空天力量 浏览 1496

没想到,人口下降的红利来得这么快!

资本百科 浏览 12706

辉瑞将对孕妇展开新冠疫苗试验到底是怎么回事?

趣看热点 浏览 25737

三镇1-2新鹏城,杜加利奇破门,杨一鸣肘击染红,三镇全场0射正

懂球帝 浏览 1344

零跑C10:半价的理想L6,开车不再用脚?

Autolab 浏览 13097

汪小菲霸气维护新女友,狂赞女方现实更美,张颖颖深夜痛哭称太傻

萌神木木 浏览 13010

云迹科技通过IPO备案:营收2.5亿估值41亿 腾讯阿里沸点是股东

雷递 浏览 2064

今年冬天流行的“倒三角”穿法,时髦又高级!

LinkFashion 浏览 389

黄石公交陷停运困境:电池衰减严重 司机不敢开空调

界面新闻 浏览 86646

父亲去世当天 尹锡悦再发亲日言论强调"日韩友好"

3号观察室 浏览 15130

风扇网红小玉租70元婚纱,在出租屋与大鹏结婚

深析古今 浏览 2104

湖人连签4人后凑10人名单!队记:小里水拉预计回归 底薪引内线

颜小白的篮球梦 浏览 16038

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 708

群兴玩具实控人麻烦多:正配合公安调查 股权被拍卖

网易财经 浏览 11404

父亲辞职带9岁多动症儿子徒步60天:同行还有2组家庭

潇湘晨报 浏览 6381

还在挑事儿!转播方晒昨日猛龙vs湖人罚球对比

直播吧 浏览 12901
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1