关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3422人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

本田宣布将终止与通用汽车合资公司的燃料电池生产

IT之家 浏览 2330

舒淇,东亚女孩的恨海情天

时尚COSMO 浏览 2659

转行当吉他手?科纳特被罗梅罗蹬到后,做出吉他里的扫弦动作

懂球帝 浏览 2760

泉州市与宁德时代签署新能源电池生产基地项目合作协议

北京商报 浏览 2228

第二十七届高交会将于下周举办,中国太空游项目将全球首发

南方都市报 浏览 3305

22岁医学生被前男友扼颈杀害 生前开公司转至男方名下

扬子晚报 浏览 9438

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

网易汽车 浏览 5

深圳00后600多万在港抄底买房 内地客十年砸下8000亿

南方都市报 浏览 15845

BeingBeyond团队让30种机器人共享一个"大脑"

科技行者 浏览 2209

重大转变?特朗普邀请中国车企赴美建厂

电动知家 浏览 2318

配置升级 长安Lumin宝藏版将于10月30日上市

车质网 浏览 3333

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

北京日报客户端-长安街知事 浏览 8164

科学家刊文称:发现影响癌症进展的关键细胞

新华社 浏览 2347

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 4179

29.2万辆!难怪比亚迪9月跟“疯了”一样,原来是给这几天憋大招

小李车评李建红 浏览 3644

湖北武汉加速构建人形机器人产业发展生态

新华社 浏览 3345

不满国安糟糕战绩,工体北看台球迷连唱三首歌表达抗议

懂球帝 浏览 3323

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

澎湃新闻 浏览 9223

大S离世一周年,S Hotel酒店大门被木板封住

素素娱乐 浏览 2131

市场定位模糊!贝莱德基金本土化试水困局,主动权益产品边缘化

新经济e线 浏览 2294

美国被指对伊朗行动的准备在两周内完成

潇湘晨报 浏览 2244
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1