![]()
这项由韩国延世大学的宋智彬、权敏基、郑在锡和禹荣正领导的研究发表于2024年12月的计算机视觉领域顶级会议,论文编号为arXiv:2512.24724v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
制作一部高质量的AI视频,就像烹饪一道精美大餐。传统方法要求每个步骤都使用最昂贵的食材和最复杂的工艺,结果虽然精美,但成本高昂,制作缓慢。然而,延世大学的研究团队发现了一个令人惊喜的现象:在这道"烹饪"过程中,并非每个步骤都需要顶级"厨师"亲自操刀。
当前的AI视频生成就像请了一位米其林三星大厨从头到尾制作整顿饭菜。这位大厨技艺精湛,能做出完美的视频,但速度慢、成本高。同时市面上还有一些"快餐厨师",虽然速度快、成本低,但做出的菜品质量明显不如大厨。研究人员开始思考:能否让大厨只负责最关键的环节,而让快餐厨师处理相对简单的部分,既保持菜品质量又提高效率?
经过深入研究,团队发现视频生成过程可以分为三个阶段,就像做菜的三个关键步骤。第一个阶段类似于"打基础"——确定菜品的整体风格和主要结构,这个阶段至关重要,决定了最终成品的基本样貌。第二个阶段像"填充内容"——在已有