关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2340人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 2190

"分割顿巴斯"提议遇阻 北约秘书长赴美会谈

环球网资讯 浏览 2299

琉球群岛地位未定中方在联合国亮明态度 日媒破防

头条爆料007 浏览 33302

进博面对面|A2牛奶公司黎笑:借进博会“溢出效应”不断升级“全家营养解决方案”

中国商报 浏览 2219

将于四季度上市 东风日产新款天籁亮相

车质网 浏览 2248

伊姐周日热推:电视剧《凤凰台上》;电视剧《亲爱的X》......

伊周潮流 浏览 1678

苹果预计今年不会发布标准版 iPhone 18 推迟到 2027 年

威锋网 浏览 1446

台媒:面对解放军军演 台当局黔驴技穷、原形毕露

参考消息 浏览 16987

2025秋冬一定要拥有的5只包包,怎么搭都好看

LinkFashion 浏览 3758

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

极目新闻 浏览 14759

电商老板的焦虑,在被飞书解压?

虎嗅APP 浏览 2241

国常会重磅部署!

数据宝 浏览 2366

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 1462

HWG!罗马诺:维拉1200万欧签下梅斯16岁前锋马乔已达成协议

懂球帝 浏览 1358

交通标志设置不合理致5814次"被违章" 当地:重新设置

封面新闻 浏览 7220

白百何工作室放聊天记录了!锤了剧组没撒谎,东京之前就有矛盾

萌神木木 浏览 1812

泽连斯基让步 欧洲宣布组建一支“志愿联盟”援乌部队

上观新闻 浏览 1374

老实人狂野起来 卡罗拉概念车拒当“买菜车”

网易汽车 浏览 2229

刚刚,存储芯片巨头,业绩猛增200%,市占率第一!

飞鲸投研 浏览 1019

张柏芝又飞澳洲陪Lucas读书,独自拿八九件行李

八斗小先生 浏览 1083

巴基斯坦和阿富汗同意继续停火 将于11月继续会谈

环球网资讯 浏览 2204
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1