关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1717人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

在这里,我们拍到了雪原上的一抹瑞红

时尚COSMO 浏览 526

挪威主帅谈晋级世界杯:这是个超现实的夜晚,我感到非常自豪

懂球帝 浏览 1275

限量3000台 广汽本田新飞度焕新价6.68万

网易汽车 浏览 383

浙大突破:经验学习提升AI智能体现实世界物理认知

科技行者 浏览 200

17年,巴菲特投资比亚迪累计套利至少80亿港元

第一财经资讯 浏览 2288

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 2218

吉比特狂赚5.69亿!创始人卢竑岩分红独揽1.28亿!

包不同 浏览 1297

美国国务院要求美国公民立即离开伊朗

新华社 浏览 404

美称空袭叙利亚西北部 打死一名与“基地”组织关联头目

新华社 浏览 381

官方披露:正厅级崔建平被查当月还在捞钱

扬子晚报 浏览 8385

连打工人出差都住不起亚朵了?日益昂贵的亚朵该咋看?

江瀚视野 浏览 2380

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 207

罗志恒:三季度经济增速为何放缓?四季度经济前景如何?

首席经济学家论坛 浏览 1584

三次联排后,央视春晚越看越悬:分会场像宣传片主会场全是老套路

肆季娱乐 浏览 12

76岁“欢喜哥”许绍雄病危,tvb多名艺人紧急探望,众人神情严肃

不八卦会死星人 浏览 1366

遍布全国的连锁餐饮,为何进不了江西?

BT财经 浏览 2159

欧盟行业代表:中方出手反制欧盟 法国这一次受伤最重

澎湃新闻 浏览 28906

普京:若乌方不愿和平解决 俄方就打到问题解决

国际在线 浏览 679

或搭载激光雷达 长城硬派越野车谍照曝光

车质网 浏览 716

从S25 Edge到iPhone Air:超轻薄旗舰这么快就要凉透了?

雷科技 浏览 1413

贵州茅台股东大会发放“定心丸”成效几何

北京商报 浏览 1324
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1