关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro1448人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

总部位于伦敦 吉利与雷诺集团成立动力总成合资公司

网易汽车 浏览 11793

全裸颁奖,影帝打人,一年比一年离谱,奥斯卡已经没有好电影了吗

不八卦会死星人 浏览 12243

广州一航班因救人延误 男子在机上大闹被机长拒载

澎湃新闻 浏览 90923

美股周三:纳指连涨四天,英伟达连续三日创历史新高

网易科技报道 浏览 13154

高温天怎么穿?参考这27套,清爽时髦过夏天

七柒时尚笔记 浏览 17045

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元 浏览 1531

电影《集结号》筹备的时候,冯小刚刚开始是拒绝张涵予演谷子地

趣看热点 浏览 27103

见过大世面的女人 不会打扮得花里胡哨

一只可可 浏览 17130

拜登坐10小时火车进基辅 俄方:不会向车厢开火

枢密院十号 浏览 19626

最近最火的,是这只狼?

仙女事件簿 浏览 172

双片闪耀,北京跨年放映今日开票!

幕味儿 浏览 753

快船送出现金,交易得到塞尔维亚中锋科普里维察选秀签约权

OnFire 浏览 15748

美涉台法案或违宪 台湾关注后续进展

环球网资讯 浏览 15048

针对配置进行升级 新款小鹏G9官图发布

车质网 浏览 344

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 1236

形势严峻,俄空天军好日子到头了?

浏览 11236

久其软件股价狂飙背后:并购多盈利弱,内控事件“出位”多 | 钛媒体深度

钛媒体APP 浏览 14562

解放军报:日本军国主义大有卷土重来之势

极目新闻 浏览 824

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 1437

刘三姐黄婉秋灵堂曝光,家人悼念,丈夫露笑引争议

盖饭娱乐官方号 浏览 20153

柬内政部称一名中国公民在柬泰冲突中受伤

北京日报 浏览 665
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1