关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18866人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒:拜登声称如获通过会签署针对TikTok法案,特朗普则反对禁令

环球网资讯 浏览 12130

极速养成“四力” 我在长春航展“追”飞机丨去现场做原创

封面新闻 浏览 492

人脸识别需要趴车外看摄像头?小鹏汽车致歉并已下架第三方应用

IT之家 浏览 18743

全智贤否认离婚传闻,突如其来的离婚与分居传闻毫无根据

趣看热点 浏览 27461

4天的沉默印证游本昌“真实人品”

娱乐圈笔娱君 浏览 540

胡塞武装宣布:打掉隶属美以沙三方间谍网络

环球网资讯 浏览 343

FF91创下“里程碑”但FF已“腰斩”掉百亿元市值

每日经济新闻 浏览 20544

理想L6预告图曝光!定位5座SUV,售价有望下探至25万元

汽车网评 浏览 12454

中国停购后 美国大豆真"爆仓"了人们四处逃散

澎湃新闻 浏览 8614

中国造歼-10C狂砍阵风,印机绝望中凌空炸碎

浏览 4773

奥特曼无罪重返董事会!OpenAI内讧真相大白,调查结果公开

量子位 浏览 12246

队记:小波特在火箭担当主控的时期结束了 他有机会打得更高效

直播吧 浏览 15140

星巴克和它所代表的一切,正与我们渐行渐远

虎嗅APP 浏览 490

詹姆斯正建造两栋豪宅!11000平米一分为二:为布朗尼准备婚房?

罗说NBA 浏览 621

瓜帅:利物浦和阿森纳都在争冠;英超风格的改变?我会接受

懂球帝 浏览 636

天籁出新款,鸿蒙座舱+燃油车,合资新出路来了?

Nice好车 浏览 1313

狂卖27亿美元,丑鞋靠什么狙击年轻人?

新消费智库 浏览 14775

笑傲天王山!天津女排3-0横扫上海,李盈莹爆发,2-1夺冠军点

天涯沦落人 浏览 12613

今年秋天的卫衣,放松穿最好看!

LinkFashion 浏览 1512

林心如曝霍建华消费观

科学发掘 浏览 550

周末利好刷屏!中美元首通话、国常会重磅,下周一重磅发布会

看财经show 浏览 1476
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1