关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro5569人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

50 岁女人穿衣，牢记“色不花、衣不紧”，优雅大气还减龄

静儿时尚达人浏览 7983

港科大突破：代码本技术提升AI医学图像分析稳定性

科技行者浏览 4516

娃哈哈饮用水公司从宏胜系手中拿回桶装水销售权

澎湃新闻浏览 5849

精彩推荐

何赛飞用肥皂卸妆网友：张晚意找到“同皂中人”

台州交通广播浏览 4684

开源版Cowork爆火，逼得Anthropic下放Cowork

新智元浏览 4549

OPPO Find X9 系列实拍：定位“旅拍神器”，口袋里的哈苏相机

IT之家浏览 5566

奇才129-126逆转雄鹿，麦科勒姆28分，KPJ空砍30分

懂球帝浏览 5127

索要1000万元逼死丈夫苏享茂翟欣欣一审获刑12年

界面新闻浏览 18516

合约纠纷还没了，鞠婧祎的新剧又悬了？

八卦三缺一浏览 4651

有望首次入选全明星的球员：湖人里夫斯在列杨瀚森队友有戏

仰卧撑FTUer 浏览 4928

弗里克：相信阿隆索会有新工作；坎塞洛明天有可能上

懂球帝浏览 4685

老鹰124-112魔术豪取10连胜，沃克41分，杰伦约翰逊三双，班凯罗13中3

懂球帝浏览 3694

将于5月15日发布理想L9 Livis内饰细节公开

车质网浏览 2492

双11|| 今年我只想回购这些！

黎贝卡的异想世界浏览 5677

东方甄选线下店开业：不卖菜卖简餐，全标品

商业观察家浏览 2532

贵州2岁女童家门口失踪父亲已去世母亲独自在外打工

红星新闻浏览 10313

今年秋冬最流行的外套竟然是它？谁穿谁时髦！

LinkFashion 浏览 4806

女子代购海外＂不老药＂疑遭职业打假人起诉＂退一赔十＂

大风新闻浏览 7228

委内瑞拉外长会见美外交使团团长

环球网资讯浏览 4453

中国留学生潜水后失踪妻子4天后报警仅找到一根胫骨

新民晚报浏览 25224

3家“通达系”A股快递公司9月单价均同比上涨，快递反内卷见成效

红星资本局浏览 5615

比尔·盖茨被指感染性病并隐瞒前妻首次回应

大风新闻浏览 6610

从估值75亿到破产清算：“网红”自嗨锅母公司落槌，被执行超2800万元

红星资本局浏览 2497

“长安系”再落关键子：王辉亲掌阿维塔董事长

网易汽车浏览 6532

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1