爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

状态不佳，阿...

日本企业搞出...

起底Plau...

＂不要国王＂...

不一定能掀桌...

【观察】不抱...

标配激光雷达、磁流变悬架深蓝L06预售13.99万元起

每体：队内门将太多不好处理，巴萨计划等明年夏天免签雷米罗

拜仁官方：后卫斯塔尼希奇今日回归合练

存储涨价之后，如何让AI走向数据？丨ToB产业观察

以军在加沙城行动最新画面公布

SRM理工学院发布：文本到视频生成技术演进图谱

10万观众打出9.3分，成本仅3000万，票房破3亿？贺岁档黑马来了

车机升级第五代宏光MINIEV将于3月下旬上市

被问是否会刺杀伊朗新领袖特朗普突然＂共情＂了

基金经理任期内亏损近40%，还让人“抄作业”

牛弹琴：白宫突然发了张图伤害性不大侮辱性极强

普京：美版和平方案与普特会讨论一致

霍汶希开工派利是好热闹！谢霆锋成最大财神

7天票房2.3亿，差评满天飞的“大烂片”被捧上日冠，中国观众咋了

辽宁加时95-82江苏，赵继伟16+7+8，威尔斯21分

特朗普取消美方代表赴巴基斯坦行程

4大最新信号！出手“黄金坑”的机会来了？

宗庆后母亲去世，娃哈哈百亿遗产案仍悬

“三七分穿法”今夏太流行了，这样穿显高又时髦！

“小黑靴”今年冬天又火了！这4组搭配照着搭就很时髦

曲协表态仅6天，郭德纲担心的事还是发生

3件开心小事|| 这条视频竟然有一千万人看了

委内瑞拉外长会见美外交使团团长

美军猛烈轰炸后特朗普暗示或发起＂踩红线＂打击