关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4009人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

南部战区:正告菲方停止在南海挑起事端

北京日报客户端 浏览 4933

亚冠精英实时积分榜:申花升至第6跻身晋级区,成都第9,海港垫底

懂球帝 浏览 4092

50岁女人穿衣,记得色不过三、衣不紧身,照着穿想不气质都难

静儿时尚达人 浏览 4010

跨军种联合 直击空军航空兵直升机海上着舰训练

环球网资讯 浏览 3778

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

封面新闻 浏览 9681

沪指4000点临门一脚,与十年前有何不同?豆包AI这样回答

每经牛眼 浏览 3999

秋到没边的氛围感美甲,一眼心动

时尚COSMO 浏览 4002

被判赔偿220万元 海底捞"小便门"当事人登报道歉

上观新闻 浏览 13446

乘风2026偷拍事件未平,宿舍甲醛超标质疑又起

俺家住楼房 浏览 103

号称“能拍能打”,努比亚 Z80 Ultra 手机官宣 10 月 22 日发布

IT之家 浏览 4250

陈奕迅回应患焦虑症:仍在服药看医生,但已好转大半

大象新闻 浏览 4079

星河动力谷神星一号“一箭四星”海射成功

财闻 浏览 3061

普京会见伊朗最高领袖顾问:正密切关注伊朗局势

上观新闻 浏览 2778

“恐龙院士”徐星:在朝阳,孩子们可以近距离与化石对话

新华社 浏览 4311

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

黎贝卡的异想世界 浏览 3838

莱切足球:福法纳加盟,恩戈姆也即将到来

绿茵情报局 浏览 3065

马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱

机器之心Pro 浏览 3414

李霄鹏:国安周中亚冠很辛苦,球迷应该理解球员,对他们宽容一些

懂球帝 浏览 4082

第三届鸟巢数字体验节启幕:机器人嘉年华打造未来生活新场景

环球网资讯 浏览 4187

消费股大爆发,但背后另有玄机!

君临财富 浏览 3849

雷军,这次不对劲

创业家 浏览 3965
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1