关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4468人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

iPhone 17 Pro被黄牛拒收:卖的人多,货太多了

大象新闻 浏览 5208

父亲脑血栓瘫痪儿子正叛逆 母亲又气又痛告知儿子身世

红星新闻 浏览 97079

存储芯片超级周期来袭!江波龙股价两个月涨超200%!超85亿存货在手

时代周报 浏览 4346

贺娇龙被安葬在父亲身边 昭苏居民:她对昭苏功不可没

潇湘晨报 浏览 13061

国产车在英国被“警告”了,还是安全问题,但这回我真憋不住笑了

小李车评李建红 浏览 5395

2025年热销的十款新能源车 卖得好真不是靠吹牛?

汽车天涯 浏览 3476

秦雯袭警风波升级!新剧开播前四天紧急撤档,上星困难唐嫣被牵连

萌神木木 浏览 4583

首席炒黄金期货大赚14亿?国海证券前固收首席靳毅辟谣称已报警

深蓝财经 浏览 4424

这张外卡不白拿,40岁瓦林卡逆转取胜,最后一届澳网完美开局

网球之家 浏览 3454

哈格里夫斯:希望拉什福德能回曼联,俱乐部完全可以用得上他

懂球帝 浏览 3575

媒体:福建舰入列 中国航母实力世界第二位置毫无争议

新民周刊 浏览 9044

特朗普上台后一年 德国智库发布新报告:美国成"敌手"

南风窗 浏览 34590

降温了!羽绒服这样穿显瘦又时髦

LinkFashion 浏览 3430

单车成本飙涨7000元,今年汽车公司还打得动价格战吗?

界面新闻 浏览 3331

杨振宁先生缅怀室设在父亲曾执教的小楼里|封面新闻记者清华采访侧记

封面新闻 浏览 4560

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 4562

新能源车双税新政发布,郑州消费者该“下手”还是“等等”?

大象新闻 浏览 4714

印尼总统:已准备好向加沙派遣维和部队

环球时报国际 浏览 5145

离婚4年,42岁佟丽娅高调官宣喜讯

刘森森 浏览 4289

兰州临街商铺突发爆炸致一死 事发路段已封锁仍在排查

大风新闻 浏览 4606

空中客车:任命王璀担任全球高级副总裁及空客中国民用飞机商务负责人

经济观察网 浏览 5160
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1