关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4381人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

现场调查!拥有“黄金”招牌的金雅福爆雷后人去楼空,“买卖+委托”模式是否涉嫌非法吸存

华夏时报 浏览 3597

新兴市场套利狂潮未止!华尔街看好2026年高收益货币前景

智通财经 浏览 3787

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 3699

威刚展示SD 8.0标准SDXC存储卡:顺序读取1.6 GB/s

IT之家 浏览 3582

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 4984

梦天家居紧急刹车

富凯财经 浏览 3371

美媒:美两架军机坠入南海或与燃油无关

北京晚报 浏览 4181

那些开口谈「性」的女性,决定不忍了

她刊 浏览 1189

英伟达能救英特尔吗?

华尔街见闻官方 浏览 5198

范志毅:U23国足半死不活的踢法世界最先进最科学 对手不会踢了

念洲 浏览 3438

父亲脑血栓瘫痪儿子正叛逆 母亲又气又痛告知儿子身世

红星新闻 浏览 96992

委内瑞拉外长:感谢中方支持

环球网资讯 浏览 14578

周星驰悼梁小龙,翻起港圈大佬们的恨海情天

仙女事件簿 浏览 3346

中国犀旺队|欧塞尔共研青训,法国集训圆满结束 

绿茵情报局 浏览 1873

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

每日经济新闻 浏览 6926

专家:荷兰舰机行为恶劣 解放军高度克制

环球网资讯 浏览 25353

内饰迎巨变 新款奥迪Q4 E-Tron最新消息曝光

乐选爱车 浏览 1291

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 3584

梅州众将:不管未来怎样都要打好最后一场,拼出个保级机会

懂球帝 浏览 4111

吉利银河星耀6全球上市 限时置换价6.88万起

网易汽车 浏览 4289

"多管局局长"拍市政问题火了 网友:只有深圳包容他

中国新闻周刊 浏览 14793
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1