关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro9人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

边防官兵巡逻穿上了充电加热靴

环球网资讯 浏览 11819

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 235

余承东被回旋镖打中?2023年车圈十大名梗,哪个给你的印象最深?

二师兄玩车 浏览 11663

队报:兰斯1000万欧报价里昂18岁后卫萨尔,但被拒绝

直播吧 浏览 9625

美试射高超音速导弹 仅表示“获得有用数据”

环球网资讯 浏览 13666

加速虹吸,东方之珠的货币抽水机……

杨国英观察 浏览 10530

日本"全球最大"反导战舰露真容

中国青年报 浏览 13737

75岁TVB老戏骨近照曝光 肚腩消失 健康令人担忧

TVB剧评社 浏览 14574

特朗普:若俄乌冲突无法解决 可能会供乌“战斧”

界面新闻 浏览 290

以色列部长回应"虐待环保少女":很自豪

CCTV国际时讯 浏览 272

赵丽颖和冯绍峰离婚,汪峰演唱会又没上热搜

趣看热点 浏览 25850

针对伊朗,以色列搞了次“内阁战争演习”

参考消息 浏览 16169

上海9旬老太举报保姆虐待 儿媳:保姆逼写自愿给钱字据

极目新闻 浏览 91940

小鹏开启“甩卖”模式,为明年开路?

汽车头条APP 浏览 12476

土外长称美曾建议土向乌提供S-400防空系统

参考消息 浏览 17866

网红自称有世界最大脸颊,网友看到照片吓一跳

趣看热点 浏览 25528

看完《热辣滚烫》,对塑料古偶应激了!满屏假肌肉的痛,尽数爆发

娱乐圈笔娱君 浏览 12124

辛纳晋级中网男单八强

体坛周报 浏览 664

ST路通内斗激化!“资本大佬”吴世春“抄底”遭遇绊脚石

野马财经 浏览 62

4天票房过亿口碑却走低,一件更糟糕的事,正在国产爱情片中发生

毒舌电影 浏览 11450

2000多年楚王大墓被盗 "摸金校尉"在村里租房3年寻墓

上游新闻 浏览 3191
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1