关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者909人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:高市内阁就"雷达照射"贼喊捉贼 遭批国家的耻辱

新民晚报 浏览 18369

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 2149

医保兜底救命药!阿斯利康系,迪哲医药携两款创新药冲击港股|港E声

时代周报 浏览 783

Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评

智东西 浏览 1609

S=更入门?大众速腾S工信部信息曝光

网易汽车 浏览 988

金莲花奖女配提名 85花顶流之争再升级

桑葚爱动画 浏览 1439

猎奇智能IPO背后藏着七大富豪!80后湖北大佬造光模块设备年入5亿

野马财经 浏览 657

不一样的温子仁,最后时刻大反转!

电影最TOP 浏览 1652

限时价17.38万起 "卷王"吉利银河M9上市

网易汽车 浏览 2836

量产型Atlas进步巨大,但波士顿动力前途依旧黯淡

汽车公社 浏览 883

游客境外租车加错油"全额保险"被判失效 还被扣6000元

封面新闻 浏览 14344

海昌智能IPO:“母子”共同“闯关”,重大关联交易或成拦路虎

览富财经网 浏览 884

奚梦瑶为女儿庆生,4岁Romee长腿抢镜

扒虾侃娱 浏览 1953

金银"大跳水" 深圳水贝有档口单日卖出200万元金条

红星新闻 浏览 5379

独家|我们与淘宝闪购管理层聊了聊增长的持续性问题

虎嗅APP 浏览 2026

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 932

这顶级尤物,也凉了

独立鱼 浏览 1753

万斯:照顾美国老年人比援助乌克兰重要

参考消息 浏览 6824

丈夫因妻子"买肉价格低"疑其出轨 捅刺结婚30多年妻子

红星新闻 浏览 2217

美军宣布再次打击"贩毒船" 致4人死亡

环球网资讯 浏览 1885

五万亿的英伟达

诗与星空 浏览 1856
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1