关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4464人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 5303

鸿铭股份创始人夫妇拟退出董事会,25岁哥大硕士儿子将加入

红星资本局 浏览 3445

摩托罗拉Edge 70 Ultra现身Geekbench,处理器或有新情况

IT之家 浏览 4274

中国女主管跳海逃生:豪华邮轮上,多的是你不知道的事

她刊 浏览 2580

贵州茅台的盈利会下降吗?

锦缎研究院 浏览 3595

同演女将军,18岁黄杨钿甜和38岁赵丽颖对比

肆季娱乐 浏览 2065

我们给有毒染料找了个“替身”,而且它真的能吃…

中国科普博览 浏览 3803

泰军警告柬方:若敢用中国战略武器 将直接纵深打击

时时有聊 浏览 20555

阳光电源:前三季度净利润119亿元 同比增长56%

网易财经 浏览 3672

朱光耀:中美AI实力对比,中国具备三项优势

上观新闻 浏览 3791

S家族,最出名的不是八卦?

江湖人称艾掌门 浏览 4457

转行当吉他手?科纳特被罗梅罗蹬到后,做出吉他里的扫弦动作

懂球帝 浏览 3852

古偶大女主这碗饭,王鹤润吃得并不香

娱乐圈笔娱君 浏览 1550

46岁港星回应 因钟嘉欣失落视后辞任TVB高层一职

TVB剧评社 浏览 3484

苹果欲推首款低价Mac,定价远低于1000美元,挑战微软与Chromebook

华尔街见闻官方 浏览 4252

表现不稳,世体:巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝 浏览 4261

陈道明主演!36集谍战剧来袭,是《沉默的荣耀》后我唯一想追的剧

娱乐圈笔娱君 浏览 4622

高市早苗自嘲:有人说我是当不上首相的可怜女人

澎湃新闻 浏览 8014

90分钟战报:埃弗顿1-1桑德兰,詹姆斯-加纳点射绝平

懂球帝 浏览 2992

特朗普弄混格陵兰岛与冰岛 再提北约秘书长叫他"爸爸"

鲁中晨报 浏览 20981

E句话| 又一个95后顶流小生被爆,连粉丝都不放过?

仙女事件簿 浏览 3472
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1