关闭广告

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西103人阅读


智东西
编译 高远瞩
编辑 程茜

智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程

当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个过程却是高维数字向量的运算,这些向量被称为“激活值”,承载着模型在每一个计算步骤中的“想法”。然而,激活值就像一串串脑电波,人类无法直接阅读。

在正式发布前的安全审计中

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

用AI「合成」演员,爱奇艺的新故事翻车了

豹变 浏览 662

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 2345

海昌智能IPO:“母子”共同“闯关”,重大关联交易或成拦路虎

览富财经网 浏览 2536

中乌外交部政治磋商在北京举行

界面新闻 浏览 2852

一城商行支行行长离开原岗位13年后被查

湘财Plus 浏览 2591

加里-麦卡利斯特:林德斯是纯粹的足球人;杰拉德还会再执教

懂球帝 浏览 3475

专家:自民党与公明党谈崩了 给高市早苗当头一记闷棍

澎湃新闻 浏览 4012

国内首个开放式机器人租赁平台在沪发布,已触达50个重点城市

澎湃新闻 浏览 2830

伊姐周日热推:电视剧《我的山与海》;电视剧《在你灿烂的季节》......

伊周潮流 浏览 1598

美国中央司令部透露对伊朗动武全部武器装备清单

参考消息 浏览 1844

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

财联社 浏览 2342

华为路由 12 月升级 HarmonyOS 6 系统,支持 AI 绿色上网 2.0

IT之家 浏览 3542

杨振宁留给中国的最重要遗产,恰恰很不“中国味”

钛媒体APP 浏览 3564

英媒打脸特朗普:发出威胁后率先退让 是巨大战略失败

澎湃新闻 浏览 61133

Win10用户纷纷转向Linux!Zorin OS称72%新下载来自Windows

快科技 浏览 3645

特朗普回应前助理被起诉:这是个卑鄙的家伙

参考消息 浏览 8593

李亚鹏海哈金喜离婚早有预兆!女方无意说漏嘴,婚姻不能只有爱情

萌神木木 浏览 3682

董卿母子现身看电影,13岁儿子身高超160

娱乐圈圈圆 浏览 2487

杉杉股份易主:任元林接盘,“民营船王”入主锂电材料巨头

征探财经 浏览 3813

或告别燃油时代 丰田Supra将于明年停产

车质网 浏览 3482

媒体:韩国发生大规模作弊丑闻 争强好胜之心往邪处用

新民周刊 浏览 31059
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1