关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4342人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新卡罗拉锐放/腾势N8L/星耀6 三天10款新车密集上市

网易汽车 浏览 4204

揭密!中国导弹为何飞越北极圈,不走太平洋

浏览 8175

OpenAI:人类打字速度将成通用人工智能发展瓶颈

IT之家 浏览 3347

节后戒断太难,屏障修复实验室自有招

时尚COSMO 浏览 3459

高市为当首相对维新会大幅让步 接受其数个"绝对条件"

极目新闻 浏览 9157

东方港湾董事长但斌:致敬白酒投资者,这两年其他的人都吃香的喝辣的

红星资本局 浏览 3393

喊球迷别卖票自己却缺阵?76人0-2落后,大帝G3出战成疑

仰卧撑FTUer 浏览 819

理财的,注意这两个风险!

米筐投资 浏览 3329

哈马斯证实达成加沙停火协议

CCTV国际时讯 浏览 3524

美媒披露普京停火条件:基辅必须彻底放弃顿涅茨克

参考消息 浏览 4254

i60首月销量破万 广汽埃安全系月销量达40066辆

网易汽车 浏览 3242

艾克森晒自己球衣收藏:含国足、广州、海港球衣

懂球帝 浏览 2207

董璇带小酒窝给朵朵庆生,陈思诚佟丽娅大方合照

爱吃冰棍的小痞子 浏览 2857

面对全新应用场景还有推理能力 英伟达发布全新物理AI模型

网易汽车 浏览 3111

古典佳人,何晴再见

仙女事件簿 浏览 3377

TA:皇马正与苹果合作开发VR项目,但一切处于非常早期的阶段

懂球帝 浏览 4081

这届大美人,怎么入冬撞衫率100%

时尚COSMO 浏览 3229

1月销量环比暴跌超20%!雷军:一季度本就是汽车销售淡季,且初代SU7已停售

商用车头条 浏览 2887

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 4337

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 4797

保时捷下一代电动 718 Cayman 原型车路测图曝光

IT之家 浏览 4242
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1