关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3333人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

范明与妻子庆结婚30周年!每桌配茅台

楠楠自语 浏览 368

A股突发!刚刚,释放三大信号!

券商中国 浏览 3233

俄称击落数十架飞往莫斯科无人机

北青网-北京青年报 浏览 2730

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 3180

吴彦祖西湖边穿古装送花,获女游客热情拥抱

往史过眼云烟 浏览 1215

承德露露,温水煮青蛙

斑马消费 浏览 3084

公募基金业绩比较基准迎规范,证监会、中基协公开征求意见

华夏时报 浏览 3017

沪漂外国网红包丢了报警 警察到现场后发现"神秘字条"

新闻晨报 浏览 16091

柬方:若停火持续72小时 泰国将遣返18名被俘柬士兵

潇湘晨报 浏览 2310

S家族,最出名的不是八卦?

江湖人称艾掌门 浏览 3078

主打运动与智能 零跑Lafa5内饰首发亮相

网易汽车 浏览 3223

俄罗斯多地遭袭

极目新闻 浏览 2108

福建一无人岛垃圾泛滥 岛上有140万根玄武岩石柱群

极目新闻 浏览 3234

媒体:高市早苗当选首相 对华采取挑衅措施的可能提升

界面新闻 浏览 7843

大礼包?蓉城海港送对手亚冠首胜!上海双雄成唯二0胜队+包揽倒2

我爱英超 浏览 3128

许利民暴怒狂批11分钟:输的是人是尊严 再这样季后赛都进不去

醉卧浮生 浏览 2012

陈冰挺孕肚陪男友逛街,陈牧驰一脸络腮胡

黄谋仕 浏览 2059

乌代表团“换将”赴美 佩斯科夫:俄方只和美国谈

每日经济新闻 浏览 2619

一年一度的秋装趋势,来了!

黎贝卡的异想世界 浏览 4986

拥抱AI 沃尔玛跻身“万亿美元俱乐部”

北京商报 浏览 1818

斯诺克世界大奖赛:吴宜泽、张安达、肖国栋、周跃龙晋级16强

懂球帝 浏览 1822
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1