关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro768人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

亚冠激烈冲突!米内罗点球破门,10人互相推搡,柔佛门将贴脸怒吼

奥拜尔 浏览 660

汕小伙5000元创业,如今3家工厂10家店,“睡地板也要当老板”

电商在线 浏览 945

“中国建议”在达沃斯受欢迎

环球时报国际 浏览 12560

今年冬天一定要拥有的6件衣服

小西的穿搭日记 浏览 13441

郭晶晶晒全家滑雪照 与霍启刚合照超甜蜜!

笑猫说说 浏览 12799

被称为“电动化”的时代 燃油车杀回来了?

道哥说车 浏览 928

记者:巴萨将加薪续约哈维,并会退还当初他自费加盟俱乐部的费用

直播吧 浏览 14317

媒体:普京坐最新轰炸机上天兜风 狠狠"甩拜登一耳光"

新民周刊 浏览 12356

瑞泰人寿任期超六年总经理离职!前三季净亏0.39亿,稳住局面靠什么

北京商报 浏览 12873

韩媒吐槽中国球迷加油声太大是怎么回事?韩国人果然输不起

趣看热点 浏览 25207

集邦咨询:预估2024年折叠手机出货量约1780万部 占智能手机市场仅1.5%

智通财经 浏览 10793

多纳鲁马:曼奇尼和巴洛特利都推荐我来,他们让我更坚定选择

懂球帝 浏览 642

电影《中国合伙人》在首映时,陈可辛极力邀请俞敏洪参加,他却拒绝参加

趣看热点 浏览 27014

十铨推出最新P35S外接SSD:按下按钮瞬间“自爆”!

快科技 浏览 1582

标配华为乾崑智驾 深蓝S07售15.69万起

网易汽车 浏览 1516

朝鲜新型隐身护卫舰高清照公开 配备战略巡航导弹

澎湃新闻 浏览 14722

被美以欺负后中东57国开会 沙特王储一锤定音靠向中国

现代小青青慕慕 浏览 12118

反击美国"变脸"普京即将公布神秘新武器 专家分析

环球网资讯 浏览 941

Netflix砍掉手机投屏功能:官方称“提升体验”,用户骂声一片

IT之家 浏览 163

年底盈利即将兑现 蔚来Q3财报公布

网易汽车 浏览 290

死磕影像十一年:vivo探索另一种可能

远川研究所 浏览 924
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1