关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3056人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

能否延续?热刺连续11个赛季晋级足总杯第四轮

懂球帝 浏览 2124

英伟达CEO黄仁勋被授予2026年IEEE荣誉奖章,奖金高达200万美元

财闻 浏览 2169

阿里前主席张勇,花5354万港元买了套香港半山豪宅

财通社 浏览 3040

王菲女儿李嫣疑恋爱!与帅气男生现身机场

二妹扯娱 浏览 2150

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 2112

魅族 22 手机推送 Flyme 12.3.1.3A 稳定版更新

IT之家 浏览 2905

CES2026开幕,英伟达黄仁勋提到多个中国大模型,这些中国产品将亮相

文汇报 浏览 2225

多国领导人到访 朝鲜迎来外交潮

上观新闻 浏览 3112

欧洲多国讨论部署军队 格陵兰岛坚称"不做美国人"

环球网资讯 浏览 2093

AI带货“躺赚”陷阱重出江湖:缴纳3000元会费,半年却仅卖出13元

蓝鲸新闻 浏览 1934

泰国总理:解散国会下议院不会影响泰柬边境局势

环球网资讯 浏览 2444

影像机能爆炸,这是朱一龙最惊艳的电影之一

幕味儿 浏览 2893

荷兰政府对闻泰科技安世半导体下手 中资股权仅剩1股

蓝鲸新闻 浏览 3154

E句话| 路行退出《再见爱人》?

仙女事件簿 浏览 2881

文班亚昕就这?前三节仅1分末节刷到7分 生日夜仍被杜锋战略冰封

颜小白的篮球梦 浏览 2358

“棕色大衣”今年冬天又火了,怎么搭都高级时髦

LinkFashion 浏览 2381

波士顿动力人形机器人亮相CES 拟2028年进厂造车

网易汽车 浏览 2180

采用东风汽车平台 Jeep计划推出全新车型

车质网 浏览 3097

特朗普:俄乌应按当前战线划界停火、各自撤兵

新华社 浏览 3202

登上热搜!王欣瑜激战阿尼西莫娃

网球之家 浏览 1963

白百何好友下场了!揭露争奖细节,放话大不了鱼死网破电影不上了

萌神木木 浏览 2847
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1