关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3196人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

30 个月,一个周榜的诞生与消失

晚点LatePost 浏览 4120

量子位「MEET2026智能未来大会」启动!年度榜单征集中

量子位 浏览 4329

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

新智元 浏览 2915

比Genesis更显豪华 新款现代Grandeur最新消息曝光

乐选爱车 浏览 918

瀚森真实命中率联盟垫底!断层落后倒数第二 投篮能力需大幅提升

罗说NBA 浏览 2604

众泰汽车重组出现变数?

车业杂谈 浏览 3031

美驱逐舰拦截一艘驶往伊朗港口油轮

财联社 浏览 1139

还得是她!杀疯了,也杀爽了!

吐槽电影院 浏览 2653

女子卷入前夫780余万巨债 诉讼9年均被判"夫妻共债"

红星新闻 浏览 31791

中超第28轮传球成功率榜:国安88.4%居首,本赛季第9次登顶

懂球帝 浏览 4245

王小卤的双11:在抖音电商,把凤爪“嗦”成国民零食

一点财经 浏览 4085

詹姆斯坐骨神经痛进展:湖人计划让他11月中旬复出 将耐心康复

醉卧浮生 浏览 4303

郑恺&李沁,向你发出“网”友申请

时尚COSMO 浏览 879

烂!58岁邹兆龙翻拍《怒火重案》,擦边卖肉制作粗糙,票房仅65万

靠谱电影君 浏览 3228

发布多模态交互开发套件,发力硬件抢占入口!阿里云已兵分两条路布局AI手机

时代财经 浏览 3198

全智贤近况曝光!44岁了放弃谍战剧去拍偶像剧,资源降级遭群嘲

萌神木木 浏览 4013

男子爬衡山丢80.88克金牌 失主:做好找不回的打算了

极目新闻 浏览 7583

以色列移交又一批巴勒斯坦被扣押人员遗体

环球网资讯 浏览 4302

下一部新剧被曝又是大女主!杨紫真要拍不过来了

星寒新影视 浏览 3525

7天吸金36亿,合肥冲击“新能源汽车之都”,汽车产业高速发展伴随“阵痛”

红星资本局 浏览 4128

190万赞的爆款女孩,等待代表作

时尚COSMO 浏览 3045
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1