关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2245人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

腾讯元宝宣布“任务”功能上线:一句话安排时间,到点就提醒

IT之家 浏览 1465

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

极目新闻 浏览 94289

香港上市公司董事薪酬榜:李想6.8亿港元居首,布鲁可创始人朱伟松排第六

红星资本局 浏览 2465

深圳“AI+政务”方案重磅发布:以后办业务,一句话的事!

南方都市报 浏览 339

鏖战3小时,40岁老将瓦林卡追平纳达尔职业生涯一大纪录!

网球之家 浏览 1356

印度阵风又被击落,为啥法国战机如此不堪?

浏览 6122

“平民卫士”搅局硬派SUV市场 iCAR V27首发登场

网易汽车 浏览 1802

曼城vs埃克塞特城:塞门约首秀,哈兰德、罗德里、阿克首发

懂球帝 浏览 985

跨年晚会主持人状态曝光!靳梦佳被质疑整容

萌神木木 浏览 1354

媒体:中美元首会晤让赖清德坐立不宁、寝食难安

环球时报新闻 浏览 13052

以军称打死哈马斯武器装备部门负责人

新京报 浏览 1816

别小看这几小事,坚持到过年那状态得有多好啊?

黎贝卡的异想世界 浏览 1154

毛不易演唱会撒圆形纸钱,本人:这吉祥吗?

一家说 浏览 2913

港交所陈翊庭:香港IPO发行量全球第一,近半来自A股公司!宁德时代股价翻倍

时代周报 浏览 2297

美股科技七巨头风光不再

第一财经资讯 浏览 488

广汽传祺1月交付新车 终端销量逆势双增长

网易汽车 浏览 983

《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

萌神木木 浏览 1132

《堡垒之夜》放弃日本iOS,Epic硬刚苹果指控违法

环球网资讯 浏览 1533

沙特官员向德黑兰承诺:不会向美军开放领空

红星新闻 浏览 6718

92岁陶玉玲去世,身患3癌丧女又丧夫

疯说时尚 浏览 1198

街边大排档,涌进商场做“漂亮饭”

餐饮老板内参 浏览 2522
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1