关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro19人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:特朗普一口气狂退66个群 还有更多在"排队"审查

上观新闻 浏览 13077

小米SU7 Ultra飞坡翻滚多圈 车主:感谢雷军

扬子晚报 浏览 2607

预售10.29万起 BJ30旅行家将于9月27日上市

车质网 浏览 3985

今年一定要拥有这件大衣,复古又时髦!

LinkFashion 浏览 2861

投机永不眠!加密货币失宠 币圈玩家转战预测市场

智通财经 浏览 1893

穆西亚拉评心目中年度蓝阵容:巴黎五人入选,队长选择凯恩

懂球帝 浏览 2107

「寻芯记」上市后首个大动作!摩尔线程公布全功能GPU架构路线图,国产芯片发起生态冲刺

华夏时报 浏览 2384

今年春天最美搭配:西装+半裙,怎么穿都好看!

LinkFashion 浏览 1341

《人之初》大结局,重排演员演技:萨日娜第五,徐百慧第二

娱乐圈笔娱君 浏览 2158

“霸凌”周迅的奚美娟,现在付出代价了?

除夕烟火灿烂 浏览 2550

蓝宝科技呼吁 GPU 制造商放宽限制,赋予板卡设计更大自主权

环球网资讯 浏览 2443

奇瑞“掀桌子”了!首款固态电池车星途ES8,零下30℃续航1000Km

车矩阵更懂车 浏览 2272

秦煌如今过成这样只能算他活该?

一针见娱 浏览 3187

NBA战报:猛龙110-99骑士取NBA8连胜,英格拉姆37+7+2

懂球帝 浏览 2779

50岁女人穿衣,记得色不过三、衣不紧身,照着穿想不气质都难

静儿时尚达人 浏览 3075

实探安世半导体东莞工厂:限制出货 员工将"上四休三"

每日经济新闻 浏览 8063

曼联警告球迷:唱“切尔西租男”可能会被警方逮捕

直播吧 浏览 3923

知名博主喊话沈伯洋 用"吉林一号"公布其居住、工作地

澎湃新闻 浏览 17408

谁说冬天不能穿裙子?照着搭美出新高度

LinkFashion 浏览 1909

光大银行董事会换届减员,4名新面孔亮相

财经众议院 浏览 3626

谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底

第一财经资讯 浏览 3174
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1