关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro653人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金球奖红毯:小李子越老越有味

娱乐圈笔娱君 浏览 2673

冬天也想穿裙子!附不同温度的穿搭公式

黎贝卡的异想世界 浏览 3228

已婚已育三年,朴信惠真的老了好多

娱人细品 浏览 2449

盛合晶微冲刺IPO 募资扩产引争议

北京商报 浏览 3404

NVIDIA推出ChronoEdit:让AI图像编辑拥有物理常识的革命性技术

科技行者 浏览 3317

59天后的春晚,她必是焦点

Yuki女人故事 浏览 2944

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 3675

出行场景升级/还支持餐厅排队 方程豹钛7推送第二次OTA

网易汽车 浏览 2640

徐正源:无法以全主力出战,又存在伤病,输球很遗憾

懂球帝 浏览 3715

博主:此前杨瀚森屡屡被DNP时,很多当地球迷都要求退季票

懂球帝 浏览 2782

以军频繁袭击 加沙"黄线"附近居民被迫再度离开家园

海外网 浏览 3475

张家辉夫妻米兰吃火锅!与粉丝合影细节暖心

陌识 浏览 2512

今年秋冬最时髦的穿法:长外套+长裤,太高级了!

LinkFashion 浏览 3460

公开喊话 贾跃亭称FF愿与特斯拉展开合作

车质网 浏览 3210

BBA的心态,快被华为搞崩了

少数派报告Report 浏览 2927

Nature|尺寸与光电转换效率创世界纪录,上海科学家团队携手龙头企业突破大尺寸钙钛矿光伏模组产业化关键技术

上观新闻 浏览 3731

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 2847

俄乌“和平计划”又生变 欧洲“强有力”回应特朗普批评

环球网资讯 浏览 3018

汽车豪门法拉利掀母子撕逼战 继承人遭母亲"背刺"

澎湃新闻 浏览 7943

马特塔:对阵佛罗伦萨首次首发,品尝错失的意甲滋味

绿茵情报局 浏览 969

果壳直击CES:具身智能下班时刻

果壳 浏览 2562
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1