关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4405人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金正恩连续八次深夜阅兵 "大杀器"亮相

中国新闻周刊 浏览 4399

比Genesis更显豪华 新款现代Grandeur最新消息曝光

乐选爱车 浏览 856

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技 浏览 2174

特朗普同意停火两周

极目新闻 浏览 1513

印巴空战震撼全球:PL-15导弹为何一击必杀

浏览 8079

从万人偶像到幕后导演:赖冠霖的叛逆转身,撕开了内娱多少虚假?

黄色的泥土 浏览 3132

今秋要穿这15条裙子!上身绝美,太撩人了!

Yuki女人故事 浏览 4230

最强“卖铲人” 寒武纪靠AI芯片疯狂掘金

21世纪经济报道 浏览 4768

Dockcase Selfix背屏保护壳亮相,适配iPhone 17 Pro系列

IT之家 浏览 3466

员工超长时间如厕被开除 单次最长4小时辩称护理痔疮

环球网资讯 浏览 7556

CBA第22轮最佳阵容:段昂君8三分首次客胜北京 四字新星生涯之战

醉卧浮生 浏览 2902

76岁欢喜哥去世!众星悼念

查尔菲的笔记 浏览 4046

淘宝闪购新工服需骑手自费购买?平台回应来了!

雷科技 浏览 3948

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 13833

记者:成都是最国企的俱乐部,现在应关心周定洋和莱切特续约

懂球帝 浏览 3518

非足联官方:强烈谴责决赛期间不当行为,目前正审查相关画面

懂球帝 浏览 3059

以专家:以色列唯一正确选择 就是100%服从特朗普安排

中国新闻周刊 浏览 12232

女子用"AI流浪汉"照片整蛊丈夫引来警察 网友表示不解

央视网 浏览 11285

今年母亲节,和妈妈一起变漂亮

时尚COSMO 浏览 813

西班牙足协主席:我们会充分照顾球员利益,俱乐部可以放心

懂球帝 浏览 4036

《赴山海》:唐方父亲一直躲在幕后,身份应该很不简单!

柳缘阁主 浏览 4179
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1