关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4404人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

长期的“台积电第一大客户”,苹果如今也不得不“抢产能”了

华尔街见闻官方 浏览 3049

海南封关,就能半价买豪车了?

汽车公社 浏览 3516

高速公路未批先建致企业受牵连关停 申请赔偿9年未果

大风新闻 浏览 9257

文班亚马新赛季满血回归 马刺是最被低估球队?

体坛周报 浏览 4113

沙特主帅:对伊拉克的比赛将是我人生中最重要的一战

懂球帝 浏览 4205

技术+临床双向赋能成都脑机接口产业 迎来新机遇

封面新闻 浏览 1284

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 3642

澳大利亚刚插手台海就收噩耗 中方杀鸡儆猴停特殊待遇

时时有聊 浏览 18238

被扫地出门的贵公子,真是活该

Yuki女人故事 浏览 3693

倪妮告秦雯和王家卫!?

八卦疯叔 浏览 3926

快船今日首发中有4人34+岁,NBA近9年来首队

懂球帝 浏览 2656

千问宣布投30亿元“发红包”,大厂竞逐春节档,腾讯元宝App一度崩溃

红星资本局 浏览 2942

欧美媒体唱衰福建舰仅6成战力 赖岳谦:他们开心就好

看看新闻Knews 浏览 9989

二手平台现999999元出售"黄仁勋签名红包" 被商户打假

极目新闻 浏览 7301

暖心!海鸥飞过球场被皮球击中晕倒跌落,球员做心肺复苏将它救活

风过乡 浏览 2561

5-1狂胜仍不敢怠慢!法鹰欧冠逆天赛程:马竞利物浦那不勒斯巴萨

直播吧 浏览 4932

冬季如何穿的漂亮?看看这27套穿搭就有灵感了,优雅不臃肿

静儿时尚达人 浏览 3585

世体:阿尔马达引发多家俱乐部争抢,本菲卡已对他表达兴趣

懂球帝 浏览 3219

Prada如何解构身体与气质?

时尚COSMO 浏览 6209

海外收入占比低 远信储能赴港IPO

北京商报 浏览 3082

短剧圈再添一枚190cm美男,尔冬升都夸他帅

喜欢历史的阿繁 浏览 2914
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1