关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro4012人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

这些知识女性的衣橱，完全不输穿搭博主

黎贝卡的异想世界浏览 3850

SemiAnalysis深度报告：美国电网跟不上，AI数据中心“自建电厂”跟时间赛跑

华尔街见闻官方浏览 3189

陈丽华告别仪式举办马德华：迟重瑞心里很难过

大象新闻浏览 60311

精彩推荐

新华社权威快报｜我国生成式人工智能用户规模超5亿

新华社浏览 4154

苹果新手机开售即破发砍单到几乎停产

21世纪经济报道浏览 8556

盒马不吃回头草

蓝鲸新闻浏览 4556

美军重兵集结蓄力作战之际新一轮美伊谈判时间“敲定”

环球网资讯浏览 2472

重庆：对企业面向工业领域研发垂类大模型、智能体给予最高200万元奖励

证券时报浏览 2769

米体：罗马全力追求卡拉斯科，已向利雅得青年提交首份报价

懂球帝浏览 2973

火箭惨遭雷霆双杀！杜兰特23中7申京两双亚历山大连续112场20+分

罗说NBA 浏览 3076

惊现哈基米！广东四川CBA比赛中场地内跑进一只小猫

懂球帝浏览 3091

一年暴涨1663%的牛股，玩砸了！

深蓝财经浏览 2744

中国球员连续两年夺冠丁俊晖：属于我们的时代正到来

新民周刊浏览 14210

考古中秋“顶流”的出道史

时尚COSMO 浏览 6005

10余年持续攻关，为长大隧道配一个智能“消防员”｜2024上海市科学技术奖

上观新闻浏览 3088

美国早就被预言搞AI电力要吃紧，为何电荒这么快就来了？

BT财经浏览 3021

不愧牛市！证券公司赚疯了，有人利润翻5倍

说财猫浏览 3054

罗体：萨里向洛蒂托要求在一月引进一名高水平中场球员

懂球帝浏览 3652

鲍里妮晋级2026澳网女单次轮

体坛周报浏览 3069

伊朗外长在敏感时刻访问中国美国最不愿看到局面发生

军武咖浏览 14244

湖人胜勇士！里弗斯后场发动机，八村垒艾顿齐爆，拉拉维亚辣眼

篮球资讯达人浏览 4293

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家浏览 3502

美印友谊的中流砥柱被FBI大张旗鼓拘捕被控＂串通中国＂

澎湃新闻浏览 9618

U23亚洲杯狂欢夜：日本5-0造惨案韩国平伊朗中国队首轮战伊拉克

侃球熊弟浏览 3112

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1