关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro762人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宗馥莉“被带走”?谣言背后,一个内讧的娃哈哈

大猫财经Pro 浏览 794

博主成功拆解苹果 iPhone Air,刮去背板涂层打造“透明版”机型

IT之家 浏览 670

成熟企业做新品牌往往很难成功,为什么?

创业家 浏览 607

忍无可忍!崔康熙怒喷海港受照顾:95分钟进球才能赢,拒提问离开

我爱英超 浏览 15209

马祖拉:没人能防住东欧 他们一定会得分的 要把比赛看作一个整体

直播吧 浏览 10421

萧美琴在欧洲议会大楼参加会议并讲话 外交部回应

澎湃新闻 浏览 5697

董宇辉回应“企业家组团找自己学习”:像过年在长辈面前表演一样,已当面催他们补货

每日经济新闻 浏览 12058

悬了!仅剩80天!“西北酒王”进入倒计时

壹只灰鸽子 浏览 732

古二3次发布录音,王家卫秦雯深陷争议

阿伧说事 浏览 333

再举“价格屠刀”,特斯拉手里还有多少王牌?

华夏时报 浏览 14565

世界首富LV家族背景大起底!Lisa嫁入豪门太难?

萌神木木 浏览 14492

辽篮官宣夏训!以年轻球员+恢复为主,2流言球员留队,李虎翼跟队

篮球资讯达人 浏览 16405

身材走样的中年女人,请认准这三条搭配技巧,照着学优雅又时尚

Yuki时尚酱 浏览 12743

以色列继续扩大拉法攻势:轰炸难民营

中国新闻周刊 浏览 11114

白鹿baby不和风波升级!恩怨越扒越多于正也下场

叶公子 浏览 16382

复盘瓦格纳"24小时哗变":一度称距莫斯科仅200公里

澎湃新闻 浏览 15547

极致轻量化 兰博基尼Temerario全新赛车发布

车质网 浏览 348

张杰谢娜带女儿上早教被偶遇 男方看娃女方玩手机

娱乐圈爆料君 浏览 16181

胡塞武装称24小时内2次袭击美航母 专家:有效打击很难

极目新闻 浏览 67835

强生爽身粉致癌案新进展:被判赔单一原告近70亿元

红星新闻 浏览 1125

71岁刘晓庆终于服老,新片演姥姥被夸,一幅字卖三千引热议

不八卦会死星人 浏览 12433
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1