关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者23人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 7932

女友BELLA+封面 | SUPER JUNIOR银赫:二十年初心的破茧之旅

伊周潮流 浏览 2747

主打运动与智能 零跑Lafa5内饰首发亮相

网易汽车 浏览 1695

俄罗斯:西方派往乌克兰的士兵都是"合法打击目标"

看看新闻Knews 浏览 460

比取消特普会更严厉的制裁来了 特朗普称不想浪费时间

文汇报 浏览 4667

中国机器人组团出征CES,加速进化首日售出数十台,魔法原子海外收入占比过半

红星资本局 浏览 497

新版《聊斋》杀青,六个单元主演全亮相,林允、宋祖儿倾力加盟

最爱酷影视 浏览 2358

U23亚洲杯8强出炉 1/4决赛对阵:国足第2出线战上届亚军 避开日韩

我爱英超 浏览 442

中年女人穿对了才显气质!不穿花不穿紧,舒适好看还高级

静儿时尚达人 浏览 1019

豪掷近5000万买豪宅,曾被马云看重的男人身家68亿

雷达财经 浏览 1412

奇才129-126逆转雄鹿,麦科勒姆28分,KPJ空砍30分

懂球帝 浏览 1045

蔚来火速回应指控

华尔街见闻官方 浏览 1625

都有哪些业绩稳健的基金?

阿尔法工场 浏览 767

铜价历史新高推动“复合集流体”量产提速,易开盖龙头“英联股份”能否成为跨界黑马?

时代周报 浏览 911

满屏爱张力,现偶活过来了!

吐槽电影院 浏览 724

酷态科首款户外电源亮相,还有充电宝充电器二合一产品

IT之家 浏览 1684

科技巨头疯狂投资AI基建,芯片厂商吞了云服务企业的利润?

澎湃新闻 浏览 1614

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 1646

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 2370

或命名星光560 五菱宏光侠量产版实车曝光

车质网 浏览 986

项立刚再批罗永浩!为搞流量煽动舆论,被封就是活该

雷科技 浏览 774
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1