![]()
这项研究由加州大学圣地亚哥分校的丁正和麻省理工学院的叶维瑞共同领导,发表于2025年12月的arXiv预印本平台,编号arXiv:2512.08153v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,教会机器画出符合人类喜好的图片一直是个棘手问题。就像培养一个艺术家一样,你需要不断给AI反馈,告诉它哪些画得好,哪些需要改进。但这个过程异常耗时,就好比你要教一个学生画画,却每次都要从头开始画完整幅作品才能给出评价。
传统的AI图像训练方法就像这样低效的教学方式。每次训练时,AI都要完整地生成一幅图像,然后接受评判,再开始下一次尝试。这种方法不仅浪费时间,还很难准确判断到底是画画过程中的哪一步出了问题。研究团队发现了这个痛点,决定用一种全新的思路来解决这个问题。
他们的灵感来自于围棋AI的成功经验。在围棋中,AI通过构建"搜索树"来评估每一步棋的价值,这种方法让AI能够同时考虑多种可能的走法。研究团队突然意识到,画画的过程其实和下棋有相似之处,都是一步步进行的序列决策。于是他们提出了TreeGRPO这个创新框架,将图像生成过程重新想象为一棵搜索树