关闭广告

杜克大学团队重磅发现:AI语音助手为何在复杂思考时"掉线"?

科技行者2821人阅读


这项由杜克大学林月倩、胡正绵领导,联合Adobe公司研究团队完成的重要研究发表于2025年,论文编号为arXiv:2509.26542v1,有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队首次系统性地揭示了一个令人困惑的现象:当我们用语音与AI助手交流时,它们在处理复杂问题时的表现会大幅下降,这种现象被称为"语音推理鸿沟"。

当你向Siri询问简单的天气信息时,它能迅速准确地回答你。但如果你让它解一道复杂的数学题,或者分析一个需要多步推理的问题,你会发现它的表现远不如你通过文字输入同样问题时的效果。这种差异并非偶然,而是当前语音AI系统普遍存在的根本性挑战。

研究团队通过构建一个名为VERA的全新评测体系,对12个主流语音AI系统进行了深入测试。结果令人震惊:在复杂数学推理任务中,顶级文字AI模型GPT-5能达到74.8%的准确率,而其语音版本GPT-realtime却只有6.1%的准确率,两者相差高达68.7个百分点。这种差距并非个例,在所有需要深度思考的任务中都普遍存在。

这个发现的重要性不言而喻。在人工智能快速发展的今天,语音交互已经成为我们与AI系统沟

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

26款名爵MG7限时11.69万起 好玩才是必杀技

网易汽车 浏览 1867

又出血液肿瘤新药!百济神州股价微跌,“创新药一哥”能再造爆款?

猛犸资本局 浏览 1879

马斯克的Grok AI聊天机器人再现严重故障:混淆邦迪海滩枪击事件

IT之家 浏览 2206

斗跑杨立昆后自己也要被废?汪滔赶忙“端菜上桌”

字母榜 浏览 875

从“AI猪食”到“大模型旅鼠”,2025年度热词背后的新商机

吴晓波频道 浏览 2145

理财代销加速下沉 热销背后警惕收益率“美化”

北京商报 浏览 2447

女人到了三四十岁穿衣要显贵,这些穿搭值得借鉴,大方又好看

静儿时尚达人 浏览 726

以军称打死哈马斯武器装备部门负责人

新京报 浏览 2411

浪姐7乱成一锅粥,谁都没想到翻红担当竟然是她

黎贝卡的异想世界 浏览 8

官方确认:宝马X4已停产

IT之家 浏览 1807

北约下周军演 将模拟可能动用核武器场景

界面新闻 浏览 2960

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

静儿时尚达人 浏览 1893

需求激增 流感药“新老对决”

北京商报 浏览 2475

刘嘉玲好敢说!问柯淳不谈恋爱生理没需求么?柯淳回答堪称教科书

娱乐圈笔娱君 浏览 2615

全智贤近况曝光!44岁了放弃谍战剧去拍偶像剧,资源降级遭群嘲

萌神木木 浏览 2653

达姆施塔特工业大学发布SCICOQA数据集

科技行者 浏览 1662

刘宇宁不想硬接剧,自己拍着不开心,称有些人扑一部又一部还在拍

扒虾侃娱 浏览 1862

7万+再创造车新势力月销纪录 零跑或成下一个中国前十

道哥说车 浏览 2610

李在明:韩美贸易谈判僵持 美不能给韩带来灾难性后果

新京报 浏览 7516

从“海燕”到“波塞冬” 俄密集官宣捷报有何考量?

极目新闻 浏览 2820

E句话| 蔡天凤案有判决结果了?

仙女事件簿 浏览 2797
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1