关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4151人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

77亿的工厂16亿卖 自主“捡漏”合资产能背后的车市剧变

道哥说车 浏览 3877

车展前的狂欢:4天30场发布会,谁在抢跑谁在焦虑?

车市红点 浏览 1393

39岁工人公司外猝死家属帮申请工伤 公司:已下班几小时

红星新闻 浏览 90137

碳酸锂价格,巨震!

证券时报 浏览 3769

被你们的金饰狠狠美到!这篇是大型种草现场

黎贝卡的异想世界 浏览 1542

王家卫评论区沦陷!跟秦雯调情还曾让女配音员舔手,滤镜碎了一地

萌神木木 浏览 4136

春节档对决张艺谋吴京,成龙能不能救港片?

娱乐圈笔娱君 浏览 3009

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 31899

硅谷高管消息群一夜未停 H-1B新规让美企慌了白宫找补

红星新闻 浏览 27271

初夏穿衣千万别发愁,看看这些日常穿搭,减龄舒适又显身材

静儿时尚达人 浏览 869

官媒揭开70岁潘虹的真实现状,董卿说的一点没错

手工制作阿歼 浏览 3283

明年上半年上市 奇瑞风云实车A9 EV亮相

车质网 浏览 3810

波切蒂诺爆料:姆巴佩和梅西在巴黎踢不到一块去

体坛周报 浏览 973

芒米Pocket Max掌机:模块化设计、大容量电池与强芯片的结合

IT之家 浏览 3206

小马、文远回港上市 但自动驾驶还没赢家

虎嗅APP 浏览 4069

发布多模态交互开发套件,发力硬件抢占入口!阿里云已兵分两条路布局AI手机

时代财经 浏览 3202

接近量产状态 小米YU7 GT再次现身纽北赛道

车质网 浏览 3707

曝涉案俱乐部罚分不降级 国安名宿上禁足名单 苏宁名将或就此退役

我爱英超 浏览 3087

场均2.70分,阿隆索登顶皇马主帅前10场西甲场均拿分榜

懂球帝 浏览 3954

高速公路离家不足30米 村民被噪音折磨十余年获赔3万

大风新闻 浏览 9034

53岁蔡少芬累到虚脱 15岁就开始为母还债 好辛苦

疯说时尚 浏览 3785
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1