关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19550人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

伊周潮流 浏览 1265

这款包火过帆布包!周雨彤、汤唯都在背

你的包真好看 浏览 17674

乌方公布视频:无人机命中俄方两架安-26运输机

环球网资讯 浏览 1837

桑德兰前锋伊西多尔:亨利发信息祝贺我,鼓励我继续前进

懂球帝 浏览 1989

朴信惠最新大片大变样认不出!化烟熏妆,造型土气老10岁,遭群嘲

文艺圈娱乐号 浏览 13465

奥特曼零食之父,要去IPO了

投资家 浏览 1272

E句话| 儿子发文替闫学晶道歉,说像给灵魂动手术?

仙女事件簿 浏览 165

手表鞋子坏了别急着丢 让"小修小补"回归生活

i金山 浏览 17373

美拉德失宠了?今年冬天最流行的3个颜色,谁穿谁好看!

LinkFashion 浏览 1089

酒鬼酒,四起四落

斑马消费 浏览 13460

全球数百美军高级将领突然被召回 特朗普发声

环球网资讯 浏览 2027

谁的责任?荷兰禁区7人“站桩”,克罗地亚轻松传中破门

直播吧 浏览 16692

财报爆表后,“最乐观多头”给了1100美元目标价,预测英伟达还要翻倍!

华尔街见闻官方 浏览 14752

女子急寻人:和去世丈夫攒下百万 想给40年没见的女儿

杭州网 浏览 94613

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 1311

痛惜!资深音乐人突发意外去世,很多人听过他的歌...

可乐谈情感 浏览 1242

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 1304

为什么黄仁勋还成不了世界首富?

每日人物 浏览 11124

突发!5000亿元巨头涨价

中国基金报 浏览 13110

米卢:在中国足球学校中孩子并不喜欢足球,进球也不庆祝

懂球帝 浏览 12120

联盟各队在恐慌雷霆 战绩第一还手握快船2026年首轮签

仰卧撑FTUer 浏览 819
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1