关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3258人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吉利汽车集团:银河品牌全系电混车型纯电续航突破200公里

IT之家 浏览 1351

限量30台 仰望U9X将于广州车展亮相

车质网 浏览 2747

"特朗普级"战列舰造价公布:高达220亿美元

极目新闻 浏览 1955

福斯特:曼联看起来很有信心,但争4与曼城相比差距依然明显

懂球帝 浏览 2876

章泽天最新创业,轰动全网!评论区疯狂点名刘强东

财通社 浏览 1614

冲着唐嫣去看《爱情没有神话》,却被演反派的冯绍峰吸引了

温柔娱公子 浏览 3103

东方财富实控人其实的妻子和父亲近期套现约93亿

YOUNG财经 浏览 3194

牛弹琴:荷兰控制中企简直"白痴" 现在给中国道歉晚了

大象新闻 浏览 6711

关于生成式AI,这三个问题很关键

经济观察网 浏览 2981

实用|| 百元外套穿出万元既视感,这个思路太妙了!

黎贝卡的异想世界 浏览 2313

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 2116

今年秋冬最时髦的穿法:外套+连帽卫衣,减龄又松弛!

LinkFashion 浏览 2360

98版沙僧刘大刚去世,最后露面曝光

科学发掘 浏览 2768

秋天衣服没有必要买太多!这三款单品提前备好,百搭又不挑人

静儿时尚达人 浏览 3130

一下老了30岁?!她真让人认不出

Yuki女人故事 浏览 3046

小米手表5灰度OS3.0.152.0版本,带来表端独立微信版本更新等

IT之家 浏览 1953

命运多舛的英伦跑车:解读Marcos Mantis历史

老爷车 浏览 1969

足球报:城市联赛面临高昂行政成本,赛风赛纪和裁判也是困扰

懂球帝 浏览 3146

32岁章泽天回国创业,烫羊毛卷素颜开会很自信

娱乐团长 浏览 2018

目标直指绝对第一:阿里为淘宝闪购按下份额扩张“加速键”

华尔街见闻官方 浏览 2126

香港火灾已致超40人遇难 3名工程负责人涉"误杀"被捕

界面新闻 浏览 27926
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1