关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者3400人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白宫:特朗普正密切关注伊朗局势 并保留所有选项

央视新闻客户端 浏览 14928

足球报:国安并非没考虑过土帅,针对今年问题已做长远规划

懂球帝 浏览 4631

又出血液肿瘤新药!百济神州股价微跌,“创新药一哥”能再造爆款?

猛犸资本局 浏览 3643

除了阔腿裤,这条裤子今年最流行!

LinkFashion 浏览 2579

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 8848

剑南春丨曼联1-1利兹联,阿伦森破门,齐尔克泽助攻库尼亚扳平

懂球帝 浏览 3673

港股无人矿卡第一股诞生!大疆教父李泽湘敲钟,红杉百度联手押注

车东西 浏览 3239

戴墨镜出席达沃斯会议后 马克龙的支持率提升

参考消息 浏览 7445

直播间人气冲2万,云朵当众叫爸爸

乡野小珥 浏览 4298

维拉已放弃买断桑乔!曼联若解约多特或引进,只会免费签约不给钱

罗米的曼联博客 浏览 4413

郭富城三胎还是女儿!狗仔拍到其扁嘴照,方媛发声强调不在乎性别

萌神木木 浏览 4626

潘功胜最新讲话7大要点!涉稳定币,信息量满格

21金融圈 浏览 3686

终于!短剧向经典IP出手了

艳姐的搞笑视频 浏览 4541

浪姐七年,被这位姐姐掀桌了

她刊 浏览 1819

华人博士在英国做出颠覆性人机交互“皮肤”,已用于汽车、医疗

创业邦 浏览 3925

中国科技股深夜爆发,腾讯飙升9%,首批“政务龙虾”已上线

21世纪经济报道 浏览 2730

奔驰广州4S店大兴宝鸿突然清空 超900名车主组群维权

新快报新闻 浏览 17789

马卡:卡瓦哈尔对现状不满,在替补席上也无队长应有的领导力

懂球帝 浏览 2031

撒贝宁去加拿大探望丈人,带着老婆孩子逛街

甜柠聊史 浏览 4826

王岳伦晒一家三口照片,为“李湘被封号”假消息辟谣

素素娱乐 浏览 3402

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 4614
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1