关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4380人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 4525

舒淇最爱穿的裙子搭配,真的很适合春天!

黎贝卡的异想世界 浏览 2688

70岁老人与歹徒搏斗被咬掉鼻子吞下 曾一度剧痛半昏迷

潇湘晨报 浏览 35312

四川阿坝红旗桥垮塌:系山体变形加剧滑塌造成

新京报 浏览 32816

NBA加WNBA至少4夺MVP球员:一共6人 乔丹詹姆斯在列 阿贾今日入围

直播吧 浏览 5135

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

澎湃新闻 浏览 7719

德转:24岁马里中场孔特加盟北京国安,球员身价55万欧

懂球帝 浏览 2874

美方要求哈马斯撤出以军控制区

界面新闻 浏览 4358

俄称挫败乌军空降行动

上观新闻 浏览 3467

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 4585

小伙7年后与患重病初恋女友重逢再牵手:攒钱等特效药

扬子晚报 浏览 8800

《寂静的朋友》全亚洲登陆,梁朝伟出演大尺度镜头,很可能被删减

最爱酷影视 浏览 4558

舒淇,东亚女孩的恨海情天

时尚COSMO 浏览 3446

马斯克摊牌,商业航天不赚钱!

米筐投资 浏览 517

第二十七届高交会将于下周举办,中国太空游项目将全球首发

南方都市报 浏览 4321

伊朗宣布向以色列发射新一轮导弹袭击

极目新闻 浏览 2691

赫罗纳3-3皇家奥维耶多,比尼亚斯破僵,戴维-卡尔莫扳平比分

懂球帝 浏览 4380

追平《主角》,对塑料古偶应激了!满屏磨皮的痛,此刻尽数爆发

娱乐圈笔娱君 浏览 535

美军测试“一控多”无人机群

环球网资讯 浏览 3301

今年冬天最经典的4双鞋,年年穿都好看!

LinkFashion 浏览 4154

以色列部长回应"虐待环保少女":很自豪

CCTV国际时讯 浏览 3206
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1