关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2872人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

有图无真相?沙特空中球场网传渲染图与官方图片不一致

懂球帝 浏览 4001

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

LinkFashion 浏览 2830

中国游客滞留迪拜:巨型邮轮变临时避难所 5千人被困

极目新闻 浏览 2330

新兴市场套利狂潮未止!华尔街看好2026年高收益货币前景

智通财经 浏览 3391

燃油/插混/纯电都有 五菱星光730将于10月15日预售

网易汽车 浏览 4283

美拉德失宠了?今年冬天最流行的3个颜色,谁穿谁好看!

LinkFashion 浏览 3227

世体:皇马拒绝让女超杯在迈阿密举行,女足俱乐部都感到不满

懂球帝 浏览 4273

汪小菲最重要的两个女人,一个爱,一个适合

半身Naked 浏览 4698

超70亿独角兽“原地解散”,无人车赛道却将爆发?

虎嗅APP 浏览 3610

30亿元“炸弹”入场!千问烧钱搅动AI春节红包大战

华夏时报 浏览 2941

俄外交部:乌方对和平解决冲突“缺乏兴趣”

环球网资讯 浏览 3748

俄方:乌克兰袭击赫尔松地区目标致超20人死亡

环球网资讯 浏览 3225

白珊珊喊话吴磊!暗示其劈腿还违法,众多细节被扒出,工作室否认

萌神木木 浏览 3032

百亿龙头股董事长获刑,已上诉!IPO关键期行贿官员,过程曝光

深蓝财经 浏览 3813

上海夫妇骑"老头乐"闯灯被撞索赔超70万 法院:赔36万

新民晚报 浏览 96629

拥有超灵巧机械手,人形机器人North可打乒乓球、组装纸风车

IT之家 浏览 3112

深圳1900亿央企换将,去年人均薪酬超51万

华美财经 浏览 3524

被出示黄牌,西蒙斯社媒晒知名网红uno梗图

懂球帝 浏览 2911

三年巨亏30亿,鹏华基金闫思倩的“光环”与持有人的“叹息”

一地基毛 浏览 3814

丹麦赛石宇奇击败阿塞尔森进决赛

体坛周报 浏览 4116

戴向宇曾单方面通知家人要和陈紫函离婚

乡野小珥 浏览 4727
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1