关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4150人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

LinkFashion 浏览 3245

向科米索的最后告别:富纳罗、费拉利、普拉德等人将在美国出席

绿茵情报局 浏览 3220

小米汽车订单回收价跌至2000元 两月前曾溢价2万

鲁中晨报 浏览 7962

海尔集团与蚂蚁集团签署全面战略合作协议 聚焦数字支付与医疗健康

财闻 浏览 4356

短剧女神郭宇欣让多少白幼瘦女星脸红?

娱乐圈笔娱君 浏览 4198

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

静儿时尚达人 浏览 2598

斋戒期间突尼斯联赛下午一点比赛,终场哨响两队球员体力不支均趴窝

懂球帝 浏览 2737

全国首个!华为、联通把5G-A上行速率飚到1Gbps

快科技 浏览 3047

俄大使:美袭击时 委防空系统远程预警站通信出问题

参考消息 浏览 3121

运营商 AT&T“人人免费得 iPhone 16 Pro”广告被裁定为虚假宣传

IT之家 浏览 3915

林俊杰跟七七又被偶遇了!贴心帮女友提包,曝女方父亲是经济犯

萌神木木 浏览 2947

智能体元年 中国AI的进取之势

新华社 浏览 4090

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 3214

司乘天平上的滴滴

远川研究所 浏览 4300

广西10人打零工掉入暴涨的江中遇难:有1家3人身亡

澎湃新闻 浏览 23196

上海百万平方米AI小镇全球亮相!20亿元创业基金虚位以待

上观新闻 浏览 5005

俄罗斯发射高超音速导弹

大风新闻 浏览 3689

朱孝天回应阿信感谢,自曝没再收到邀约

萌神木木 浏览 3052

高质量孵化器里有了“机器人驾校”

文汇报 浏览 3948

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 3349

6万人欢呼!西蒙尼带队狂飙:儿子助攻 西甲4场10分杀进前4

叶青足球世界 浏览 4175
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1