关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3245人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 3519

临近年关,凤凰传奇高调官宣喜讯,网友:恭喜

阿废冷眼观察所 浏览 2100

零跑汽车引入一汽作为大股东,朱江明回应控制权不变

财闻 浏览 2564

消息称小米汽车部分门店将开放端到端辅助驾驶体验

IT之家 浏览 3108

E句话| 袁惟仁去世,前妻发长文送别

仙女事件簿 浏览 2069

李施嬅和车崇健确认已分手,她值得更好的!

黔乡小姊妹 浏览 2256

行业变局信号,理想坚定AI战略

节点财经 浏览 2097

中戏否认闫学晶儿子读新疆班,曾参加全国统一考试,网传消息不实

扒虾侃娱 浏览 2324

腾讯元宝派宣布支持接入OpenClaw

环球网资讯 浏览 1277

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 3225

短剧抄袭风波升级!评论区沦陷、预告下架,网友直言早该管理了

萌神木木 浏览 2707

鹿晗的“体面”,终于被关晓彤撑起来了

娱乐圈笔娱君 浏览 2378

股价“闪崩”、市值蒸发500亿,寒武纪怎么了?

征探财经 浏览 2045

一网友称车辆在京东养车做保养后发动机报废

大象新闻 浏览 2658

留几手为闫学晶叫屈?称网友自卑敏感

小徐讲八卦 浏览 2334

美军突袭抓获马杜罗 三个细节值得关注

上观新闻 浏览 2400

已获海港等队邀约,茹子楠表态站好梅州这班岗:拼到最后一秒

懂球帝 浏览 2943

卫星图像首次发现:伊朗两处受损核设施有"重大活动"

澎湃新闻 浏览 6734

荣耀MagicOS 10升级设备数突破1000万 力争春节前都能升

快科技 浏览 2554

熊黛林带双胞胎女儿旅行,2个女儿长得完全不一样

素素娱乐 浏览 2143

柬埔寨提高获取公民身份投资门槛:至少需100万美元

红星新闻 浏览 19726
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1