关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1448人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 5682

宋代变法名臣王安石为何会一直刁难苏轼?

趣看热点 浏览 26672

苏州一轨道交通线路驾驶室没门 客服:司机负责监控

上游新闻 浏览 76252

失业数据显示美联储6月将首次降息?

巴伦周刊 浏览 11985

金扫帚奖提名惹争议,被质疑全看人情公关,杨幂入围被撤就是先例

萌神木木 浏览 12988

Bruce控诉李玟娘家人,李玟二姐:不接受恶意言论

萌神木木 浏览 14790

出场时间创新低,记者:马刺有意交易索汉来换更强的轮换球员

懂球帝 浏览 544

杨笠突然清空社媒!自曝生病睡眠差,长期遭攻击疑似萌生退意

萌神木木 浏览 1150

CES 2026见:摩托罗拉有望推出Razr品牌首款大折叠手机

IT之家 浏览 699

《盛夏未来》发布新海报,张子枫吴磊花絮曝光影片将于8月13日七夕档全国上映

趣看热点 浏览 27853

俄媒:美国社会撕裂程度接近美国内战时期

环球网资讯 浏览 13276

亚马逊据悉将淘汰数十个自有品牌,旨在抵御反垄断审查并提振利润

界面新闻 浏览 14948

马刺加时134-130爵士取季前赛3连胜,文班22+7,贝利20+7

懂球帝 浏览 1461

德国总理称不希望供乌武器用于打击俄本土

环球网资讯 浏览 15857

推广|| 她们新年状态大开挂?原来悄悄做了这笔“美丽投资”

黎贝卡的异想世界 浏览 147

过渡期临近,银行业首席合规官纷纷“就位”

21金融圈 浏览 156

英超夺冠赔率:曼城6场1胜仍领跑,利物浦升第2,阿森纳第3

直播吧 浏览 13153

今年秋冬最流行的4组搭配,照着穿美出新高度!

LinkFashion 浏览 1108

俄外长称俄正与北约和欧洲处于“真正的战争”之中

澎湃新闻 浏览 1908

父亲被熟人杀害后母亲出走17年 20岁儿子控告母亲遗弃

红星新闻 浏览 64438

快船送出现金,交易得到塞尔维亚中锋科普里维察选秀签约权

OnFire 浏览 15639
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1