关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者454人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

萨莫拉诺:巴萨必须引导好亚马尔,从没听过梅西说皇马偷窃

懂球帝 浏览 1357

媒体:美作错误示范 未来突破"底线"的事或更频繁发生

新民晚报 浏览 7830

马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱

机器之心Pro 浏览 750

徐艺洋机场被偶遇,生图五官优越有星味

往史过眼云烟 浏览 191

媒体:美军武器靠拆零件续命 对美国或是一种致命伤

新民周刊 浏览 7143

女子代购海外"不老药" 疑遭职业打假人起诉"退一赔十"

大风新闻 浏览 3166

若看懂英伟达,5年前愿意用茅台换!段永平持仓曝光:猛砍英伟达

金石随笔 浏览 1254

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 6799

钟楚曦到底僭越了什么

虎嗅APP 浏览 1356

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者 浏览 508

停办吧!《奔跑吧》首播差评一片,请一大堆明星没一个能拿得出手

娱乐圈笔娱君 浏览 1111

天空体育:若利物浦向塞门约发出邀约,球员就会选择加盟

懂球帝 浏览 793

AI终端战事升级:大厂跨界厮杀,阿里、字节、理想同场竞速

时代财经 浏览 872

内塔尼亚胡:加沙地带停火将很快进入下一阶段

环球网资讯 浏览 991

让大模型能自己想出安全方案——KAIST团队的突破性研究

科技行者 浏览 56

伊朗突然关闭领空引猜测 西方密集渲染"动武"威胁

环球网资讯 浏览 11709

辛纳重返世界第一无悬念?网友点出阿利西姆难阻意大利人夺冠原因

网球之家 浏览 1412

黎以停火协议生效一年 以军称打死370余名武装人员

国际在线 浏览 1000

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 14945

周迅线下被偶遇,身材娇小鼻子宽大老气

翰飞观事 浏览 265

业界首款攻克全金属与信号共存难题?华为Mate 80系列外观公布

IT之家 浏览 1226
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1