关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro900人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

命中注定!舅舅介绍丁真走红经过拍丁真纯属机缘巧合

趣看热点 浏览 26394

汪苏泷被亲后毫无波澜并喝了口水,汪苏泷新恋情?

趣看热点 浏览 28143

有钱人如何安全戴表?有解了

YOKA网 浏览 19469

OpenAI“星际之门”拉美首站:将在阿根廷建设 500MW AI 数据中心

IT之家 浏览 1013

宝马的保守与变革:MINI 披上新势力外衣

晚点LatePost 浏览 11270

模速为核 智领未来——徐汇人工智能产业的蝶变之路|“十四五”答卷

上观新闻 浏览 297

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 17911

马上评|快递柜免费保管时间该多长,谁说了算?

澎湃新闻 浏览 10815

被60+阿姨的衣品惊艳:裙不上膝、衣不穿花,美得高级又洋气

静儿时尚达人 浏览 766

世界杯让077休赛期持续苦练!斯洛文尼亚主帅:一切需他自己评估

直播吧 浏览 14588

因盒马售价太低暂停合作?卤味休闲零食品牌王小卤回应了

南方都市报 浏览 12683

六氟磷酸锂“带飞”氟化工,衢州启动“中国氟谷”的底气在哪里?

时代周报 浏览 626

高效输出!大瓦格纳半场8分钟5中4拿11分

直播吧 浏览 13328

科兴新冠疫苗已停产 此前多家企业已"下车"

每日经济新闻 浏览 74913

300135前三季度由盈转亏!池州国资入主后大动作,沥青龙头跨界投资半导体

时代周报 浏览 934

春天“英伦复古风”穿搭,看看这16套LOOK,简约、时髦、高级

静儿时尚达人 浏览 11507

《鱿鱼游戏2》官宣新演员阵容,吸毒艺人TOP也参演

网易娱乐 浏览 15948

邮报:利物浦前员工涉及多年球票欺诈勾结黄牛牟利,审判已开始

懂球帝 浏览 785

夏天衣服不需要买贵但要买对 这几大单品特别实用

Yuki时尚酱 浏览 15287

余嘉豪:扣完篮肾上腺素就上来了,但得马上冷静继续投入比赛

懂球帝 浏览 614

章莹颖遇难6年 父亲:女儿男友非常善良 至今未婚

大象新闻 浏览 90074
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1