关闭广告

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

智东西1341人阅读

智东西
编译高远瞩
编辑程茜

智东西5月8日报道，Anthropic于5月7日推出了一种名为自然语言自动编码器（Natural Language Autoencoders，简称NLA）的全新方法，能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本，让用户可以直接阅读Claude在生成回答之前的思考过程。

当用户与大语言模型对话时，用户的输入是自然语言，模型的回答也是自然语言。但在模型内部，整个过程却是高维数字向量的运算，这些向量被称为“激活值”，承载着模型在每一个计算步骤中的“想法”。然而，激活值就像一串串脑电波，人类无法直接阅读。

在正式发布前的安全审计中

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

古偶大女主这碗饭，王鹤润吃得并不香

娱乐圈笔娱君浏览 1631

哔哩哔哩董事长兼CEO陈睿：优质视频内容能给用户获得感

上游新闻浏览 4362

同样是星二代，为什么她路人缘那么好？

伊周潮流浏览 4493

《喜人2》中的演员，个个都让人笑抽筋，最后一个更是离谱至极

娱乐圈笔娱君浏览 4668

万项：距离理想中的球员还差很多；最后两场比赛不会放松

懂球帝浏览 4088

北京越野BJ40增程赤兔版续航超过1200km

隔壁说车老王浏览 3425

从万人偶像到幕后导演：赖冠霖的叛逆转身，撕开了内娱多少虚假？

黄色的泥土浏览 3630

刘嘉玲在2.6亿豪宅办跨年宴，28岁侄子首露面

情感大头说说浏览 3806

刘浩存：明媚中绽放

时尚COSMO 浏览 1616

刘亦菲慷慨捐款150万助力香港，助力灾后重建与心理支持

茶韵浮生浏览 4119

巴基斯坦夜袭阿富汗边境地区打死至少70名武装人员

新华社浏览 4745

配置升级 2026款雷克萨斯LS官图正式发布

车质网浏览 4250

刚刚，“海澜之家号”升空！

江南晚报浏览 4896

彩虹-7高空高速隐身无人机成功首飞实现重大突破

新京报浏览 9641

多巴胺“粉”，赫本是这样穿的！

Yuki女人故事浏览 846

杨天真打不开自己特斯拉从后备箱爬进去客服回应

极目新闻浏览 13395

中国核聚变技术获国际原子能机构肯定，“环流三号”亮相聚变能国际大会

上观新闻浏览 4645

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

江南都市报浏览 113727

试过了，“和SIM卡并无差异”

都市快报橙柿互动浏览 3754

马杜罗在出庭期间在纸上做笔记对旁听席说＂新年快乐＂

环球网资讯浏览 7214

46岁秦岚大孤山祈福被偶遇，素颜白皙少女感

热点风采浏览 3624

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

高市在日本青...

李云迪风波升...

王大陆逃兵役...

地缘因素引爆...

保姆机器人来...

赵本山：从家...

助力AI全民创作万兴科技（300624.SZ）旗下万兴天幕创作广场推出“视频教程共创激励计划”

OpenAI发力机器人与AI设备，被爆寻找美国供应商

知名网红＂小黑妮＂官宣怀孕：以后打算再生1个随我姓

古偶大女主这碗饭，王鹤润吃得并不香

哔哩哔哩董事长兼CEO陈睿：优质视频内容能给用户获得感

同样是星二代，为什么她路人缘那么好？

《喜人2》中的演员，个个都让人笑抽筋，最后一个更是离谱至极

万项：距离理想中的球员还差很多；最后两场比赛不会放松

北京越野BJ40增程赤兔版续航超过1200km

从万人偶像到幕后导演：赖冠霖的叛逆转身，撕开了内娱多少虚假？

刘嘉玲在2.6亿豪宅办跨年宴，28岁侄子首露面

刘浩存：明媚中绽放

刘亦菲慷慨捐款150万助力香港，助力灾后重建与心理支持

巴基斯坦夜袭阿富汗边境地区打死至少70名武装人员

配置升级 2026款雷克萨斯LS官图正式发布

刚刚，“海澜之家号”升空！

彩虹-7高空高速隐身无人机成功首飞实现重大突破

多巴胺“粉”，赫本是这样穿的！

杨天真打不开自己特斯拉从后备箱爬进去客服回应

中国核聚变技术获国际原子能机构肯定，“环流三号”亮相聚变能国际大会

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

试过了，“和SIM卡并无差异”

马杜罗在出庭期间在纸上做笔记对旁听席说＂新年快乐＂

46岁秦岚大孤山祈福被偶遇，素颜白皙少女感

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

高市在日本青...

李云迪风波升...

王大陆逃兵役...

地缘因素引爆...

保姆机器人来...

赵本山：从家...

助力AI全民创作 万兴科技（300624.SZ）旗下万兴天幕创作广场推出“视频教程共创激励计划”

OpenAI发力机器人与AI设备，被爆寻找美国供应商

知名网红＂小黑妮＂官宣怀孕：以后打算再生1个随我姓

古偶大女主这碗饭，王鹤润吃得并不香

哔哩哔哩董事长兼CEO陈睿：优质视频内容能给用户获得感

同样是星二代，为什么她路人缘那么好？

《喜人2》中的演员，个个都让人笑抽筋，最后一个更是离谱至极

万项：距离理想中的球员还差很多；最后两场比赛不会放松

北京越野BJ40增程赤兔版 续航超过1200km

从万人偶像到幕后导演：赖冠霖的叛逆转身，撕开了内娱多少虚假？

刘嘉玲在2.6亿豪宅办跨年宴，28岁侄子首露面

刘浩存：明媚中绽放

刘亦菲慷慨捐款150万助力香港，助力灾后重建与心理支持

巴基斯坦夜袭阿富汗边境地区 打死至少70名武装人员

配置升级 2026款雷克萨斯LS官图正式发布

刚刚，“海澜之家号”升空！

彩虹-7高空高速隐身无人机成功首飞 实现重大突破

多巴胺“粉”，赫本是这样穿的！

杨天真打不开自己特斯拉从后备箱爬进去 客服回应

中国核聚变技术获国际原子能机构肯定，“环流三号”亮相聚变能国际大会

伊朗新任最高领袖受伤内幕:遭袭前几分钟外出死里逃生

试过了，“和SIM卡并无差异”

马杜罗在出庭期间在纸上做笔记 对旁听席说＂新年快乐＂

46岁秦岚大孤山祈福被偶遇，素颜白皙少女感

助力AI全民创作万兴科技（300624.SZ）旗下万兴天幕创作广场推出“视频教程共创激励计划”

北京越野BJ40增程赤兔版续航超过1200km

巴基斯坦夜袭阿富汗边境地区打死至少70名武装人员

彩虹-7高空高速隐身无人机成功首飞实现重大突破

杨天真打不开自己特斯拉从后备箱爬进去客服回应

马杜罗在出庭期间在纸上做笔记对旁听席说＂新年快乐＂