关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1278人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奔驰/宝马/奥迪销量集体下滑,谁也逃不过以价换量

郑谊 浏览 2989

男子疑心梗住院被急诊医生误诊 转入普通病房后身亡

大风新闻 浏览 13850

E句话| 女星放弃抢救病危丈夫,儿子当场质问?

仙女事件簿 浏览 2828

长城魏牌9年8换CEO,哈弗总经理赵永坡接任冯复之

红星资本局 浏览 3423

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 4339

亚历山大:我不会做招惹对手说垃圾话的事,只会拿30分赢球走人

懂球帝 浏览 4123

被翻盘,冰岛80分钟后被乌克兰打入两球,连续两届无缘世界杯

懂球帝 浏览 3763

新增1.2T发动机 新款Tata Punch官图发布

车质网 浏览 3014

今年秋天最火的4条裙子,配玛丽珍鞋绝美!

LinkFashion 浏览 4148

护肤品牌菲洛嘉宣布关闭天猫旗舰店,公司经营策略调整,化妆品市场正快速变化

红星资本局 浏览 3126

春季穿衣没那么复杂!有这些穿搭值得借鉴,高级舒适又不老套

静儿时尚达人 浏览 836

周深:新年巡演审批通过,创下三大历史记录

陈意小可爱 浏览 2899

比利亚雷亚尔vs阿拉维斯:阿约塞-佩雷斯、帕雷霍首发,阿莱尼亚、洪尼-奥托出战

懂球帝 浏览 3122

李玟账号被异常登陆!最新解读

环球网资讯 浏览 4176

开发商送的阳台被收采暖费 业主起诉供热公司法院判了

大风新闻 浏览 8576

VOGUE大合照太势利:影后只能站角落?

娱乐圈笔娱君 浏览 4041

德切利:尤文永远是我的家,我40年人生中有30年都在尤文

懂球帝 浏览 1029

切尔西首发:若昂·佩德罗出战

体坛周报 浏览 4714

最有种的女明星

江湖人称艾掌门 浏览 3900

直播间"大牌尾货"是回收箱旧衣服 不清洗不消杀

央视财经 浏览 8766

绝望的日本车:搞新能源押错了宝,随时有可能被国产车一波推

小李车评李建红 浏览 3378
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1