爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

拟购半导体资...

男子50多万...

易三方/云辇...

收评：沪指涨...

入职要姓“鼠...

中方再次致函...

转战舞池，前意大利网球名将弗格尼尼斩获《与星共舞》冠军

豪华大六座SUV/最新鸿蒙座舱岚图泰山将于11月18日上市

海信电视 E8S Pro 开售：RGB-Mini LED 显示，16599 元起

美国＂全面封锁＂受制裁油轮一艘油轮狂发75次求救信号

双门双座+纯电后驱全新smart #2将于2026年发布

冬季如何穿的漂亮？看看这27套穿搭就有灵感了，优雅不臃肿

闫学晶奢侈风波升级！官媒出手锐评

这个意外走红的风格，冬天穿真的很加分！

踹开争议男友，她成了最大赢家？

搭激光雷达/纯电续航506km 长安启源全新Q05开启盲订

福建舰全体官兵列阵送上硬核祝福

梁小龙一生太精彩！曾被封杀20年，公开承认出轨，还跟周星驰反目

无论女人多大年纪，秋天都要准备几件“针织衫”，温柔舒适

男子带患阿尔茨海默症的妻子跑网约车：1年仅两个退单

鞋子专场||穿了五年十年，掏心窝子说，最常穿的还是这一双！

美国已正式开始出售委内瑞拉石油

国安2-4海牛历史首次主场输给对手，此前12战10胜2平仅失3球

大S逝世一周年 S家没通知大S子女惹争议

加速进化抢单“双11”

看完《阿凡达3》，心情很复杂

《我的山与海》遭受痛批，年代剧要的是接地气

我国突破固态电池关键技术瓶颈

你从托马斯·穆勒身上吸取教训了吗？

上千网友帮女孩杀猪主厨：这么多张嘴挂身上压力太大