关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者3377人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

商竣程香港250赛再爆大冷排名狂飙95位,郑钦文官宣退出2026澳网

网球之家 浏览 3653

山西多地连续阴雨致农作物发霉 当地要求"抢收抢种"

极目新闻 浏览 4808

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 14253

聚焦第五届上海知识产权创新奖——中国科学院上海微系统与信息技术研究所成果转化处

上观新闻 浏览 4492

新疆官方:西尔扎提右膝前交叉韧带部分撕裂,赛季报销

懂球帝 浏览 2727

马尔科-席尔瓦:大马丁百分之百禁区内犯规了,裁判没给我们点球

懂球帝 浏览 5258

那不勒斯旧将克罗尔:那不勒斯有卫冕意甲实力,略微领先国米

懂球帝 浏览 3732

太狠了!奥特曼亲手「干掉」GPT-5.2,OpenAI祭出最强编程AI

新智元 浏览 3112

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 4020

路易斯破82天球荒!复出后首球,申花锁定胜局,马纳法精妙助攻

奥拜尔 浏览 4736

地平线苏箐:3年后 准L4级系统大概率已经量产

网易汽车 浏览 3901

标配激光雷达和四驱 魏牌高山7上市售28.58万

网易汽车 浏览 4628

郭涛在大理补办婚礼!小石头兄妹当花童

东方不败然多多 浏览 1556

博洛尼亚-佛罗伦萨,瓦诺利:“这场胜利是为了带来喜悦。将罗科留下的价值观带到场上”

绿茵情报局 浏览 3565

互黑式宣发:赵丽颖、黄晓明互动

孟一宜 浏览 3630

28亿次播放:她这段感情,后劲越来越猛

Yuki女人故事 浏览 3416

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 4670

DO:热刺若降级,绝大多数球员薪资将被削减约50%

懂球帝 浏览 2791

雷军辟谣:小米SU3渲染图肯定是假的 目前还没有规划

太平洋汽车 浏览 3650

vivo、OPPO“大炮对轰”:手机为何卷成相机?

北京商报 浏览 4673

姚晨:自然予我

时尚COSMO 浏览 6769
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1