关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3256人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 2471

标杆的智能化进阶 试驾一汽-大众全新速腾L

车质网 浏览 3089

本-福斯特谈C罗:他的确是弗格森的宠儿,因为他实在太出色了

懂球帝 浏览 3164

北京78-93天津1喜3忧!太吃杰曼状态,陈盈骏低迷,许利民辣眼!

篮球资讯达人 浏览 1894

中年女性高级感穿搭秘诀:裙过膝、鞋带跟、包精致,更大方

静儿时尚达人 浏览 2532

马斯克宣布重启特斯拉Dojo 3超级计算机项目

不看车bukanche 浏览 1936

高市称若台湾有事日美将联合救助两国公民 外交部驳斥

外交部网站 浏览 5889

行业变局信号,理想坚定AI战略

节点财经 浏览 1811

京东把榜一大哥整不会了

老斯基财经 浏览 2929

A股年内上会数量将破百

北京商报 浏览 2326

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 12729

你恐慌我贪婪!约500亿资金借道ETF蜂拥进场,主力机构正重金下注这些板块(附名单)

每经牛眼 浏览 3157

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 3536

曝小米汽车调整销售体系!

电动知家 浏览 3831

速卖通正在成为更多亚马逊商家的第一阵地

华尔街见闻官方 浏览 3305

男子吃饭像兔子去治疗 蒙眼做手术听到医生一句话懵了

1818黄金眼 浏览 31707

谢霆锋演唱会遇连场暴雨,苏炳添携妻探班引热议

黔乡小姊妹 浏览 3765

福建舰已完成多次海试 进度远超预期

央视新闻客户端 浏览 2738

春天的衣服没必要买太多,准备几件"卫衣",舒适减龄又大方

静儿时尚达人 浏览 261

鸿蒙智行10月交付新车68216台 创单月交付量新高

网易汽车 浏览 2876

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 2324
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1