关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro10人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金九银十冲刺期:中国车企最新销量与目标完成率同步披露

汽车族杂志 浏览 7

奥巴梅扬:马赛会继续在欧联杯前进;我是射门不是传中

懂球帝 浏览 11342

快递价格战再现苗头,圆通速递准备好了吗?

创作者_1374543933241 浏览 13879

生数科技完成数千万元天使+轮融资,锦秋基金独家投资

网易科技报道 浏览 13990

132户居民疑喝8年"消防水":洗水箱后放出的全是锈水

新民晚报 浏览 86241

24年历史数据揭秘:龙年首个交易日,A股能否“龙抬头”?

第一财经资讯 浏览 11866

中国男篮已抵达深圳 王哲林的脚伤已有所好转

直播吧 浏览 13861

开豪车,直升机出行,看了滕丽名现状,网友:感谢魏骏杰不娶之恩

娱乐白名单 浏览 9982

美媒:中国近半年没买过美国一粒大豆 豆农心急如焚

CCTV4 浏览 14520

趁换代前“捡漏”30万豪华中型SUV之选

网易汽车 浏览 686

首搭纯电quattro 奥迪E5 Sportback售23.59万起

网易汽车 浏览 706

日本核污染水排放入海 国内多平台食用盐缺货

第一财经 浏览 86823

快过年了才发现:羽绒服不兴了!满街都是“大衣裹围巾”,特洋气

潮人志Fashion 浏览 12045

詹俊:国足暂排小组第二&主动权仍在手,对出线还是抱有幻想的

直播吧 浏览 11917

日本研究运输机发射远程导弹 可变身战略轰炸机

澎湃新闻 浏览 13786

当35岁李沁遇上28岁陈哲远,CP感是门玄学

陈意小可爱 浏览 13

苗圩:100美元/KWh电池成本是电车与油车成本角力临界点

澎湃新闻 浏览 15507

网友偶遇奚梦瑶何猷君约会 地点正是求婚之地

网易娱乐 浏览 25637

WiFi万能钥匙联合长安汽车,“一键连接”拓展至车机端

网易科技报道 浏览 18338

乌克兰决定与尼加拉瓜断交

参考消息 浏览 6

《大江大河3》:梁父终入狱且病死狱中

肆季娱乐 浏览 12428
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1