关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3260人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

发球都不会的球员混进ITF职业比赛!引国外网友和专家愤怒

网球之家 浏览 2097

微博视界大会:杨幂丰满有料,白鹿珠圆玉润,迟蓬赢麻了

娱乐圈笔娱君 浏览 2890

ESPN:因内马尔的身体状况和高额薪资,桑托斯不急于和他续约

懂球帝 浏览 3159

明年起5纳米以下先进制程至少涨3%?台积电回应:定价策略不以机会导向

澎湃新闻 浏览 2919

看了鲁豫对章小蕙的采访,最大感触是这一点

黎贝卡的异想世界 浏览 1824

弗兰克:球队的进攻还需要提升;希望在所有赛事都具有竞争力

懂球帝 浏览 3151

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

扬子晚报 浏览 3875

召集全球高级将领开会前 美军试射4枚导弹

新民晚报 浏览 3635

"福特"级航母电磁弹射器困住美军 重设计需数十亿美元

环球时报国际 浏览 9649

“这条裙子”才是今年的顶流,怎么搭都时髦

LinkFashion 浏览 3200

邱淑贞女儿沈月回应,称这辈子都没买过热搜,很欣赏张凌赫与沈月

扒虾侃娱 浏览 2804

定位大型旗舰SUV 零跑D19预告图发布

车质网 浏览 2802

大衣+阔腿裤:今年冬天最经典搭配,松弛又时髦!

LinkFashion 浏览 2308

委内瑞拉外长会见美外交使团团长

环球网资讯 浏览 1794

大疆Osmo Pocket 4云台Vlog相机被曝3月发布,分标准/Pro版

IT之家 浏览 1993

天越冷社交欲望越低,是我的问题吗?

时尚COSMO 浏览 2460

雷军谈被贴“营销大师”标签:这事得“怪刘强东”

三言科技 浏览 2103

成为新公路之王!极氪8X预售37.68万元起

网易汽车 浏览 1010

异构系统实现大模型推理加速与成本优化能力提升

科技行者 浏览 232

熊园:10月新房和二手房销售均走弱

首席经济学家论坛 浏览 2852

上千网友帮女孩杀猪 主厨:这么多张嘴挂身上压力太大

极目新闻 浏览 11888
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1