关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1533人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

长短剧都颓了,横屏中剧才是全村的希望?

仙女事件簿 浏览 1179

《寂静的朋友》全亚洲登陆,梁朝伟出演大尺度镜头,很可能被删减

最爱酷影视 浏览 4431

何超莲评论区沦陷!跟窦骁结婚后态度变化大,遭讨伐骗婚功利心重

萌神木木 浏览 4340

大电池增程成风,车企在堆料自嗨?

帮宁工作室 浏览 3959

奥迪A6L e-tron四驱版公布 双电机爆发405 kW

网易汽车 浏览 4481

申花2-0首尔获亚冠首胜!终结对韩国球队4场不胜 阿苏埃破僵+伤退

我爱英超 浏览 4392

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 4455

始祖鸟陷“炸山”风波 安踏回应

每日经济新闻 浏览 26547

碳酸锂价格,巨震!

证券时报 浏览 3897

ByteDance最新发布:一个能从任意数量图像重建3D世界的神奇模型

科技行者 浏览 3304

贵州茅台多款产品出厂价降价,最高下调1990元,销售端也有降价

红星资本局 浏览 3358

还是这些穿搭适合初春季节!外套不多买、常穿裙子,优雅舒适

静儿时尚达人 浏览 1732

黄慧颐手撕保剑锋 曾黎意外卷入风波

第一娱记 浏览 3284

波士顿动力人形机器人亮相CES 拟2028年进厂造车

网易汽车 浏览 3443

OptiScaler发测试版:抢跑AMD为Vulkan游戏开启FSR 4

IT之家 浏览 2765

全国巡回上坟的大学生,追星追到阴间了

她刊 浏览 1723

英伟达CEO黄仁勋:“上帝级AI”还很遥远,但世界仍需向前发展

IT之家 浏览 3266

保姆机器人来做饭!全国人大代表、海尔集团董事局主席周云杰:机器人会成为新的家电

时代周报 浏览 2561

普京与特朗普通电话 讨论伊朗局势

环球网资讯 浏览 2404

对话倪海厦传承人,为什么说多数赛博中医会走不下去?

虎嗅APP 浏览 3537

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 3612
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1