关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro32人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

古力娜扎最新大片 凌乱秀发挡不住美颜

深剖娱乐圈 浏览 15801

华晨宇方回应长沙演唱会退票事件:黄牛造谣生事

扒圈818 浏览 15321

官宣:歼31出了新型号,全球独创侧面双弹舱

浏览 9935

从9月伤缺至今 TA:伯恩茅斯中场亚当斯本周可能进入球队大名单

直播吧 浏览 11079

我天这是谁呀?突然暴瘦100斤!近照把我看傻了

Yuki女人故事 浏览 12149

北约秘书长吕特与泽连斯基通话 讨论对乌军援

极目新闻 浏览 483

《失孤》原型之子结婚:儿媳连喊3声爸 刘德华送来礼物

潇湘晨报 浏览 110512

Adriana 颜值回春,重回十八岁!

下水道男孩 浏览 12477

“ChatGPT之父”推出世界币App,或成AI时代的“身份证”

澎湃新闻 浏览 17309

比赛日前瞻:全力以赴力争三分!国足迎来亚洲杯关键一战

懂球帝 浏览 12061

何时首秀?洛城记者:哈登和塔克预计不会出战明天与湖人的比赛

直播吧 浏览 12420

购车补贴是双刃剑,弱势车企只是被加速淘汰?

百姓评车 浏览 11256

力源科技被证监会处罚拟落地 律师征集受损投资者维权

雷达财经 浏览 15367

大裁员和ChatGPT来袭,IT行业员工如何"活下去"

网易科技报道 浏览 18049

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 501

对话全国政协委员、360集团创始人周鸿祎:理解“人工智能+”

经济观察报 浏览 11487

美以正讨论加沙的"后哈马斯时代" 考虑部署多国部队

环球时报新闻 浏览 79630

舒淇穿绿色亮片连衣裙 复古又优雅

蓓小西 浏览 17844

Pico 4S VR 头显配置曝光:骁龙 XR2 Gen 2 加持

IT之家 浏览 9988

一眼心动的夏日约会穿搭!温柔气质不挑人!

她暖 浏览 14823

全新设计语言/展车3月到店 领克07 EM-P全球首秀

网易汽车 浏览 11292
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1