![]()
这项由越南国家大学理学院和新加坡Knovel工程实验室联合开展的研究发表于2026年1月的arXiv预印本平台,论文编号为arXiv:2601.19375v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们训练一个AI助手时,就像教育一个孩子一样——我们希望它既聪明能干,又知道什么事不能做。但现实往往事与愿违,即使是经过精心训练的AI模型,仍然可能被"坏人"诱导做出有害行为,这就像一个平时很乖的孩子突然被陌生人用糖果骗走一样。
传统的解决方案就像给整个学校换校长一样,需要重新训练整个AI模型,不仅费时费力,还可能影响AI的其他能力。研究团队想到了一个更巧妙的办法:既然不能改变AI的"大脑结构",那能不能像做精密手术一样,只在关键部位进行调整呢?
这种想法并非天方夜谭。AI模型的工作原理有点像人脑的神经网络,信息在不同层次间传递和处理。之前的研究者已经发现,可以在AI运行时实时调整这些信息流,就像在流水线上临时改变某个环节的工作方式。然而,这些早期方法就像用锤子修手表一样粗暴——要么完全删除某些功能,要么盲目地在所有地方都进行调整,结果往往是AI要么完