关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3055人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

网恋1个月怀孕 45岁女子被61岁男友拉黑:他出轨别人

极目新闻 浏览 8962

湖人123-120险胜猛龙,八村垒三分绝杀,詹姆斯17中4仅8分

懂球帝 浏览 2566

“军国主义”为何能在日本存续下来

国际在线 浏览 2612

赛英电子治理“黑洞”:IPO前人事动荡,保荐机构入股,独董适格性存疑|读懂IPO

时代周报 浏览 2157

张兰回京仅三天连出四大决策,马筱梅直播拆台

秋别离 浏览 1231

西汉姆联助理教练帕科·赫梅斯澄清与努诺·埃斯皮里托·桑托的场边争执

绿茵情报局 浏览 1913

平台终端双落地,河南移动数智赋能低空经济产业园

大象新闻 浏览 3579

TOP TOY,成不了泡泡玛特?

斑马消费 浏览 3791

一边收监管“黄牌”,一边夺A股成交额冠军!北方稀土股价新高背后,关联交易存隐忧

时代周报 浏览 3367

王小卤的双11:在抖音电商,把凤爪“嗦”成国民零食

一点财经 浏览 2957

ChatGPT要有广告了?消息称ChatGPT安卓测试版现广告代码

环球网资讯 浏览 2561

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 3257

八部门:加快脑机接口等新型终端的产业化、商业化进程

澎湃新闻 浏览 2199

转会捡漏?多特蒙德有意签下弗里克麾下天才

绿茵情报局 浏览 1989

AWS推出AI图像编辑新突破:用说话就能精准移动图片中的物体!

科技行者 浏览 2156

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 3185

小高领,现在穿刚刚好

Yuki女人故事 浏览 1883

羊绒羊毛专场|| 你们一直问链接的这件,终于来了!

黎贝卡的异想世界 浏览 2900

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

黎贝卡的异想世界 浏览 2844

报道称明年AI芯片产量拟提高两倍,寒武纪尾盘拉升,深夜“严正声明”:不实

华尔街见闻官方 浏览 2594

伊朗总统:袭击最高领袖 等同“发动全面战争”

每日经济新闻 浏览 2039
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1