关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro1547人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

爱泼斯坦案最新文件公布 有记录显示来电人为特朗普

每日经济新闻 浏览 11774

美国43岁母亲在学校舞会拐走女儿14岁男友 还和他生子

潇湘晨报 浏览 7091

韩华航空航天公司与挪威签署9.22亿美元火箭发射器供应合同

财闻 浏览 82

她穿一身大红参加葬礼,浪漫又感人?真是活久见哪

Yuki女人故事 浏览 93

KAIST团队突破视频生成瓶颈:让AI学会"自我反思"修正动作错误

科技行者 浏览 206

田栩宁恋情风波再升级!疑似若若回应恋情,喊话外界少打听别惹她

萌神木木 浏览 1624

51亿买公司捆绑69亿负债,佛塑科技“蛇吞象”并购是赚是亏?

野马财经 浏览 543

事关钓鱼岛、南海等问题 国防部最新回应

环球网资讯 浏览 501

前总裁起诉申通快递,要求分得前妻名下2028万股股权

YOUNG财经 浏览 328

芯片初创公司,如何融资?

半导体行业观察 浏览 1615

珍珠专场|| 无论20+还是60+,一定都会对它心动!

黎贝卡的异想世界 浏览 3064

中美达成共识让美豆农松口气 盼望中方订单快点来

环球网资讯 浏览 12396

剑桥大学团队揭秘:如何让计算机像管家一样聪明地分配工作

科技行者 浏览 43

上海业主十一出游后推开家门懵了 精装房成"化粪池"

环球网资讯 浏览 1612

港媒:高市所谓“对话”表态纯属玩文字游戏

参考消息 浏览 6094

宾夕法尼亚大学提出分子设计新方法:如何让药物既有效又安全?

科技行者 浏览 1480

孤本奉献,世界音像遗产日今日特别放送!❤️

幕味儿 浏览 1479

依旧神仙打架!沈腾吴京易烊千玺齐聚春节档

梦小娱 浏览 382

告别臃肿!这种简约的高级穿法,别拒绝

Yuki女人故事 浏览 344

向太和向佐回应“向家破产”传闻

韩小娱 浏览 2206

贵州本地人都不知道的动物园意外走红 仅一位老人看守

封面新闻 浏览 9692
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1