关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro1514人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

韩版Galaxy S26独享,三星Exynos 2600芯片被曝难以走向全球

IT之家 浏览 913

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 17537

广东3配角齐爆太惊喜!杜润旺陈家政三分即插即用,焦泊乔终暴走

篮球资讯达人 浏览 481

国产AS700载人飞艇获颁型号合格证

极目新闻 浏览 13477

妻子在家中失踪 深井边的菜让丈夫顿感不妙

环球网资讯 浏览 31328

缺席训练!曝25岁主力门将遭申花“三停”,上轮中超赛后通宵泡吧

我爱英超 浏览 1529

经纪公司否认玄彬孙艺珍离婚 怒斥假新闻过于离谱

网易娱乐 浏览 20297

英国肯辛顿宫首次发布术后的凯特官方照 王妃神采奕奕

译言 浏览 70720

突传噩耗!20岁网红摆摆去世,患克鲁宗综合征,因长相被网暴!

缘木不求娱 浏览 14082

亨德利复出!首秀轰生涯第776杆破百1-4负NO.25

网易体育 浏览 27049

阿里前主席张勇,花5354万港元买了套香港半山豪宅

财通社 浏览 1448

科技巨头再投500亿瞄准这个赛道

中国新闻周刊 浏览 1299

OPPO潮汐架构背后:保留哲库核心架构师,与联发科联合开发

时代财经 浏览 13512

外媒曝吴孟达遗产方案:太太分一半 其余给子女

网易娱乐 浏览 27511

1200亿元深耕中原!中国人寿助力河南区域经济高质量发展

证券市场周刊 浏览 1375

王岳伦否认李湘涉缅北诈骗,否认王诗龄休学

扒虾侃娱 浏览 193

24架F-35A隐身战机集结西太平洋

极目新闻 浏览 1652

全国人大代表、华海药业总裁陈保华:建议制定全国层面的人才发展促进法

经济观察报 浏览 12705

61岁吴宗宪宣布即将退圈,9亿财产分配曝光,或一分不留给儿子

扒虾侃娱 浏览 13002

外媒:马克龙在最后一刻加入反对阵营 "背叛"了默茨

澎湃新闻 浏览 6432

77亿的工厂16亿卖 自主“捡漏”合资产能背后的车市剧变

道哥说车 浏览 1100
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1