关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2103人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

口碑王|| 从2020穿到现在,越穿越爱的这件单品回来了

黎贝卡的异想世界 浏览 140

万科A:第三季度净利润亏损160.69亿元

网易财经 浏览 1660

全市首家!杨浦区新江湾城社区卫生服务中心上线美团团购

上观新闻 浏览 952

五菱开年礼 购指定新能源车型立享购置税补贴

网易汽车 浏览 1173

“烟管裤”今年冬天爆火,怎么搭都时髦!

LinkFashion 浏览 1383

车贷“高息高返”被叫停后:提前还贷需排队,有银行违约金比例最高达15%

时代周报 浏览 1955

巴以冲突两周年 加沙“仿佛已从地图上被抹去”

环球网资讯 浏览 2184

AMD显卡德国卖爆了!RX 9070 XT一款销量超RTX 50全系

快科技 浏览 1621

德国一公司研发无贵金属电极技术让绿氢生产又快又便宜,明年试产

IT之家 浏览 1038

男生眼中最好看的女生排行榜TOP1

Yuki女人故事 浏览 2153

中国留学生到杨振宁在美办公室献花:晚安教授

极目新闻 浏览 5665

和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 2917

一汽-大众迈腾臻选款上市 售价17.49万元起

车质网 浏览 1956

全球港口博弈拉警报?李嘉诚亮终极底牌了

大猫财经Pro 浏览 743

推广|| 新买的衣服人人夸!果然还得是他家

黎贝卡的异想世界 浏览 2126

无人驾驶获《时代》2025最佳发明奖:萝卜快跑、谷歌、特斯拉全球竞速

上观新闻 浏览 2268

解码基金“擒牛术”!从同花顺到新易盛,三波牛市验证三大选股核心逻辑

券商中国 浏览 1168

中俄联合空中战略巡航引日本担忧 国防部回应

界面新闻 浏览 1449

央视主持杨澜:嫁百亿身家老公,57岁却直播卖课

冷紫葉 浏览 2125

79元“结婚套餐”爆发!餐企巨头纷纷盯上“小宴会”

餐饮老板内参 浏览 859

上赛季至今五大联赛仅6人直接参与40球+:凯恩第1,青木在列

懂球帝 浏览 1414
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1