关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19535人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

土耳其发射探空火箭 太空雄心背后还有导弹野望

澎湃新闻 浏览 15279

B级车杀入八万元区间,汽车的价格战到底路在何方?

江瀚视野 浏览 1464

重磅改革三周年,8000字最新分析来了!

中国基金报 浏览 15204

美议员:乌军真正取得改变冲突的进展极不可能

海外网 浏览 15257

Neuralink脑机接口首次植入人体,马斯克发布的临床进展意味着什么? | 焦点分析

36氪 浏览 12987

汽缸滚烫!若签下拉维亚奥利斯,切尔西夏窗支出将达到4.22亿欧!

直播吧 浏览 14720

又离了!李亚鹏得名“八离世家”

Yuki女人故事 浏览 1484

章小蕙、英拉才是真名媛:风衣不配打底裤、头发微卷,优雅又高级

潮人志Fashion 浏览 13172

图片报:多特有意巴萨小将吉列,球员合同2027年到期

懂球帝 浏览 1497

新《射雕》预告:周一围肿了,高伟光更帅了,我被黄药师老婆惊艳

温柔娱公子 浏览 13004

冬天避开花花绿绿!试试低饱和度的搭配 简约高级耐看

静儿时尚达人 浏览 14047

电动Jeep曝新国产计划:或使用猛士技术,首车在2027年上市

明镜pro 浏览 1483

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 1472

Gemini修bug神了!录网页视频把代码库甩给它就行,网友坐不住了

量子位 浏览 12621

顶级美商回归,这次她惊艳众人

她刊 浏览 13516

特斯拉 × 百度地图 V20 实测视频公布:支持 3D 车道导航等

IT之家 浏览 11560

王传福:新能源车智能化不是敲敲代码就行,未来比亚迪要投1000亿元

澎湃新闻 浏览 13040

虚假宣传!任泽平宣称能生发防脱的洗护产品被处罚

界面新闻 浏览 13042

美军在高速公路实弹军演 万斯安保车遭炮弹碎片击中

红星新闻 浏览 6889

限制赎回风波后,当红PE Blue Owl为数据中心专项基金募资17亿美元

华尔街见闻官方 浏览 804

沃尔沃新一代XC90曝光!年内首发,或首次国产,还看宝马X5?

网上车市 浏览 13020
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1