关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4012人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新华社权威快报|我国生成式人工智能用户规模超5亿

新华社 浏览 4154

苹果新手机开售即破发 砍单到几乎停产

21世纪经济报道 浏览 8556

盒马不吃回头草

蓝鲸新闻 浏览 4556

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

环球网资讯 浏览 2472

重庆:对企业面向工业领域研发垂类大模型、智能体 给予最高200万元奖励

证券时报 浏览 2769

米体:罗马全力追求卡拉斯科,已向利雅得青年提交首份报价

懂球帝 浏览 2973

火箭惨遭雷霆双杀!杜兰特23中7申京两双 亚历山大连续112场20+分

罗说NBA 浏览 3076

惊现哈基米!广东四川CBA比赛中场地内跑进一只小猫

懂球帝 浏览 3091

一年暴涨1663%的牛股,玩砸了!

深蓝财经 浏览 2744

中国球员连续两年夺冠 丁俊晖:属于我们的时代正到来

新民周刊 浏览 14210

考古中秋“顶流”的出道史

时尚COSMO 浏览 6005

10余年持续攻关,为长大隧道配一个智能“消防员”|2024上海市科学技术奖

上观新闻 浏览 3088

美国早就被预言搞AI电力要吃紧,为何电荒这么快就来了?

BT财经 浏览 3021

不愧牛市!证券公司赚疯了,有人利润翻5倍

说财猫 浏览 3054

罗体:萨里向洛蒂托要求在一月引进一名高水平中场球员

懂球帝 浏览 3652

鲍里妮晋级2026澳网女单次轮

体坛周报 浏览 3069

伊朗外长在敏感时刻访问中国 美国最不愿看到局面发生

军武咖 浏览 14244

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 4293

铁威马推出雷电5移动固态硬盘盒D1 SSD Pro

IT之家 浏览 3502

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 9618

U23亚洲杯狂欢夜:日本5-0造惨案 韩国平伊朗 中国队首轮战伊拉克

侃球熊弟 浏览 3112
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1