关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18300人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

五菱缤果最高优惠8000元 年内再推新车型

网易汽车 浏览 11614

国产汽水50年:健力宝"王者沉沦" 老汽水品牌纷纷复出

鬼谷子思维 浏览 111771

全国人大代表、阳光电源董事长曹仁贤:支持燃料电池并网发电

时代周报 浏览 18498

记者:默郡警方安监控,严防利物浦vs曼城一战有人闹事

直播吧 浏览 11164

福特在国内召回部分林肯大陆、领航员、MKC 汽车,共计 83081 辆

IT之家 浏览 13714

比亚迪正式拿下财险牌照,全资接盘易安财险获批

界面新闻 浏览 17191

当庭认罪!足协两大老虎受贿超1亿,贪够13年,陈戌源想买后悔药

林小湜体育频道 浏览 12088

《许我耀眼》很爽,但要小心

时尚COSMO 浏览 175

环球:中方斡旋后叙利亚重返阿盟 美英两国不高兴了

环球网资讯 浏览 109535

收评:创业板指涨0.38% 6G、消费板块活跃

网易财经 浏览 18669

小米:汽车营销负责人周钘系因个人和家庭原因离职

财联社 浏览 18231

61岁"老虎"倒在退休前夜 曾称"千万莫让别人戳脊梁骨"

南方都市报 浏览 74009

全明星级别+首轮选秀权?公牛对拉文要价现在已大幅降低

懂球帝 浏览 10285

卢卡申科透露:莫斯科曾提出从基辅手中"租借"克里米亚

环球网资讯 浏览 90199

记者:每次选帅都强调了解亚洲足球,但不了解的教练同样能带好

直播吧 浏览 11887

这是美国现在最头疼的问题!

牛弹琴 浏览 13906

又离了!李亚鹏得名“八离世家”

Yuki女人故事 浏览 119

iPhone 15 Pro机型有望配8GB内存,标准机型内存升至LPDDR5规格

IT之家 浏览 18375

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 191

主场龙!26胜4平!曼联在梦剧场的近30场各项赛事中不败

直播吧 浏览 13696

《不眠日》大结局!墨远致是乌贼

丹妮观 浏览 758
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1