关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2292人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不在乎中国市场?全智贤方风波后仍未道歉,昔日傲慢模样全被扒

扒虾侃娱 浏览 2790

冬天穿衣尽量别露腿,这些基础穿搭可尝试,简单大方又不挑人

静儿时尚达人 浏览 276

2026首个巡回赛惨案诞生,萨巴伦卡化身早餐外卖员用时47分钟下班

网球之家 浏览 1137

中国机会|ASML:半导体产业开放合作是主流,继续依法合规为中国客户提供坚实支持

澎湃新闻 浏览 2001

半个娱乐圈为肖战包场,《得闲谨制》票房走俏,侯鸿亮鞠躬致谢

娱乐圈笔娱君 浏览 1516

朱珠美上热搜的老钱风穿搭,太值得借鉴了!

LinkFashion 浏览 1087

当你沉睡时,TA还在工作

学申论的谈妹 浏览 2207

Here we go!罗马诺:安德莱赫特边锋尼尔松-安古洛加盟桑德兰

懂球帝 浏览 797

布朗三节41+6!绿军狂胜老鹰列东部第二 豪瑟30+10三分平纪录

醉卧浮生 浏览 979

一个手机壳卖200,这家深圳公司靠什么掏空老外钱包?

花朵财经 浏览 915

巴基斯坦夜袭阿富汗边境地区 打死至少70名武装人员

新华社 浏览 2225

92岁陶玉玲去世,身患3癌丧女又丧夫

疯说时尚 浏览 1024

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 2168

媒体:俄乌战场“飞出”的无人机 为何让欧洲如此忧惧

极目新闻 浏览 3524

跟着这些古早变美综艺,真的能学到东西啊

黎贝卡的异想世界 浏览 909

外观有调整 新款起亚狮铂拓界实车曝光

车质网 浏览 2239

今年春天一定要拥有的4件衣服,太好看了!

LinkFashion 浏览 128

预售10.29万起 BJ30旅行家将于9月27日上市

车质网 浏览 2899

先L3还是直接L4?国内车企还在争论,特斯拉已经“空车”上路了

Autolab 浏览 1359

46岁邓超暴瘦引讨论,人前光鲜背后令人担忧

小梊搞笑解说 浏览 968

消息称6.3英寸小屏机或为OPPO Find X9s,将搭载双2亿镜头

IT之家 浏览 1219
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1