关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3420人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 3403

李施嬅困局:被有毒关系猎杀的富家女

仙女事件簿 浏览 2759

iPhone Air 2已在路上:升级2nm芯片 补齐影像续航短板

快科技 浏览 3175

特朗普连绵不绝的骚操作高到了大气层!

宋鸿兵 浏览 3373

特朗普:以色列与哈马斯签署"20点计划"第一阶段协议

央视新闻客户端 浏览 2936

AI里的明争暗斗:马斯克的甜言蜜语,和我们20%的胜率

一点财经 浏览 2048

阿维塔求变:抱紧华为、告别个性走向大众

经济观察报 浏览 3010

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 9939

图卢兹vs梅斯:雷斯特、西迪贝首发,巴洛-图雷、哈比卜-迪亚洛出战

懂球帝 浏览 3485

被娃写作业逼疯 妈妈"邪修法"直播写作业引2万人围观

极目新闻 浏览 18848

香港浸会大学推出AlphaApollo:AI实现协同推理突破

科技行者 浏览 3340

单月首次突破6万台 极氪科技10月销量61636台

网易汽车 浏览 2682

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

LinkFashion 浏览 1885

潍坊一水库水现石油色承包人称死鱼超3万斤 当地回应

澎湃新闻 浏览 8656

《逍遥》大结局:纪严下线订单终于到达,最终还是领导了结了他!

肆季娱乐 浏览 2620

记者:在对阵多特的欧冠比赛中,热刺将缺阵15人

懂球帝 浏览 2340

标配激光雷达 新款领克07EM-P限时13.98万起

网易汽车 浏览 4147

以军方:一名以军士兵在加沙城遭哈马斯袭击身亡

环球网资讯 浏览 4109

警方通报荣梓杉李禹熹纠纷

韩小娱 浏览 3203

2026巴黎高定时装周|全世界最美的衣服都在这了

LinkFashion 浏览 2227

柬方:若停火持续72小时 泰国将遣返18名被俘柬士兵

潇湘晨报 浏览 2650
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1