关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2209人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冬天“半身裙”最丑的3种穿法!

Yuki女人故事 浏览 1571

国内首个海上可复用火箭基地开工 发射成本对标SpaceX

澎湃新闻 浏览 11295

6000万贱卖总部大楼,“中国催收大王”也被催收了…

深蓝财经 浏览 1258

汽车豪门法拉利掀母子撕逼战 继承人遭母亲"背刺"

澎湃新闻 浏览 6387

女生希望"慢慢相处" 男子以送早餐为名进酒店实施性侵

红星新闻 浏览 11159

联合国安理会通过决议,将对海地制裁延期一年

界面新闻 浏览 1814

本田宣布将终止与通用汽车合资公司的燃料电池生产

IT之家 浏览 909

独居女子离世民政局任遗产管理人:女子遗产或有300万

每日经济新闻 浏览 22552

eSIM手机,来了!

中国基金报 浏览 2204

知名博主喊话沈伯洋 用"吉林一号"公布其居住、工作地

澎湃新闻 浏览 16277

第五届意大利繁花电影节片单暨日程发布!

幕味儿 浏览 1865

从“海燕”到“波塞冬” 俄密集官宣捷报有何考量?

极目新闻 浏览 1987

新款阿维塔12实车首曝光 华为靳玉志评其脱胎换骨

网易汽车 浏览 875

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

AI寒武纪 浏览 1900

这个冬天《鬼怪》“解冻”得有些早

时尚COSMO 浏览 1603

卢浮宫盗贼没偷6000万美元钻石 其它被盗藏品或被熔化

极目新闻 浏览 7852

韩庚晒卢靖姗官宣生子!一家四口同框照好幸福

一只番茄鱼 浏览 1983

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 668

61岁基努里维斯牵52岁女友玩滑冰,现场亲吻

素素娱乐 浏览 868

托辛:很荣幸在队内是资深球员;“叔叔”的外号来自马杜埃凯

懂球帝 浏览 1958

强调优势的吉利星愿,能否改写A0级市场的“野蛮迭代”

观察者网 浏览 2137
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1