关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4014人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

恩里克:我的球员今天表现得很出色,不过在结果上略有遗憾

懂球帝 浏览 3520

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 6725

戴维斯被视为活塞头号目标 梭哈年轻资产仍存疑虑

体坛周报 浏览 3387

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 2999

BBC两高管宣布辞职 特朗普:他们试图"介入总统选举"

红星新闻 浏览 8933

创女子体育新高,WTA与梅赛德斯-奔驰达成每年4700万美元合同

懂球帝 浏览 3377

穆杰塔巴呼吁:争取经济和文化斗争胜利 让敌人"失望"

上观新闻 浏览 864

看完《逐玉》我承认我还是喜欢长剧

时尚COSMO 浏览 2137

当“蔚小理”跌出头部:2026车企淘汰赛全面加速

首席商业评论 浏览 3193

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

静儿时尚达人 浏览 2552

可搭载“波塞冬”核动力无人潜航器 俄新一艘核潜艇出坞

上观新闻 浏览 3923

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 4153

美财长批中国实施稀土出口管制是"对抗世界" 中方驳斥

环球网资讯 浏览 9792

财政负担持续累积,“节油意识”难以培养,岛内担忧“冻油价”加剧能源困局

环球网资讯 浏览 2064

比亚迪锂电、钠电池量产 电动车或有4大变化

电动车的那些事儿 浏览 3317

老己,买点什么犒劳辛苦了一年的你?

时尚COSMO 浏览 3397

中国曾经也有一家“OpenAI”

虎嗅APP 浏览 3648

4天的沉默印证游本昌“真实人品”

娱乐圈笔娱君 浏览 3942

这张外卡不白拿,40岁瓦林卡逆转取胜,最后一届澳网完美开局

网球之家 浏览 2982

伊朗外长折返伊斯兰堡内情披露

国际在线 浏览 971

下一部新剧被曝又是大女主!杨紫真要拍不过来了

星寒新影视 浏览 3414
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1