关闭广告

7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题

智东西11867人阅读


智东西
作者 徐珊
编辑 云鹏

智东西3月11日消息,近日微软和俄亥俄州立大学的研究人员发布论文,提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法,即模拟试错(STE)法,并将其开源。

该方法协调了试错、想象和记忆三个关键机制。具体而言,STE通过大模型的“想象力”来模拟使用工具的一些合理场景,从而尝试适配不同的大模型,随后从新的反馈中,获得反馈不断优化。

ToolBench实验结果显示,STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力,让Mistral-Instruct-7B实现了46.7%的性能提升,使其成绩超过了GPT-4。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

油头粉面别演穷人!《命悬一生》几个镜头告诉你,真穷人是什么样

娱乐圈笔娱君 浏览 1514

台军兵种结构出现大变化 背后的玄机更值得关注

枢密院十号 浏览 15526

尼格买提公主抱大10岁朱迅,紧捂女方裙摆

盖饭娱乐官方号 浏览 20126

男子骑电动车跑1500公里回家:每天花1百元 骑了半个月

极目新闻 浏览 79599

关税预期与矿山停产“共振”,伦铜首次突破1.2万美元再创历史新高

华尔街见闻官方 浏览 595

价格战打了一整年,车企杀红了眼,2024年继续降?何时是个头?

二师兄玩车 浏览 13119

老帅埃里克森:我身患癌症,在最好情况下我还有一年时间

懂球帝 浏览 13254

老里弗斯:打得强硬但不聪明会输球的 必须两者兼具才行

直播吧 浏览 19066

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 944

李书福:马来西亚供应链成本比中国高30%,吉利将建立本土化体系

第一财经资讯 浏览 11495

2025 全球十大工程成就发布:DeepSeek、人形机器人等入选

IT之家 浏览 1574

唐双宁被开除党籍 自称"擅长书法、略通金融"

每日经济新闻 浏览 75201

《你好,李焕英》在内地票房榜排第二,仅次于《战狼2》

趣看热点 浏览 26576

哪些措施能有效阻止美国充当"世界治安官" 外交部回应

环球网资讯 浏览 6319

车贷“高息高返”被叫停后:提前还贷需排队,有银行违约金比例最高达15%

时代周报 浏览 1242

傅聪团队新作:OnePiece!通用生成式推荐模型新范式

学术头条 浏览 1189

世界上第一个AI设计的病毒问世|一周科技

知识分子 浏览 1854

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 7630

巴菲特被曝已清仓比亚迪,持股期间比亚迪股价涨超38倍

澎湃新闻 浏览 2097

浪漫卷发的氛围感 张柏芝太懂了!

FUFASHION 浏览 15636

官方确认:歼10CE在空战中击落多架战机

北京青年报 浏览 183
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1