关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro761人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

三镇1-2新鹏城,杜加利奇破门,杨一鸣肘击染红,三镇全场0射正

懂球帝 浏览 607

应李强总理邀请 俄罗斯总理时隔半年多再次来华

北京日报客户端-长安街知事 浏览 73742

嫦娥五号成功落月,发回第一张高清月面照片

趣看热点 浏览 25170

比亚迪初步奖励 21 位线索提供人,最高 30 万元

IT之家 浏览 10848

孙继海:精英青训中心落地大连金普,希望培养出立足英超的国脚

直播吧 浏览 12162

接二连三 马克龙“挺乌”言论引担忧

北青网-北京青年报 浏览 12081

刚担任欧盟轮值主席国 比利时首相一开年就选择访华

上观新闻 浏览 75607

支付宝旗下两家经营主体完成更名,支付宝APP名字不变

澎湃新闻 浏览 1381

男子将老婆当赌注输掉 听着妻子被牌友轮奸无动于衷

史说历史 浏览 86912

不退役!记者:克罗斯计划与皇马续约一年

直播吧 浏览 18641

陈思诚佟丽娅离婚后首合体,带娃户外探险,8岁朵朵像父亲壮实

扒虾侃娱 浏览 12183

小包包失宠了?今年最流行大包,时髦又实用

LinkFashion 浏览 13128

以军称在汗尤尼斯的战斗取得巨大进展

环球网资讯 浏览 12154

Stein:猛龙预计会给珀尔特尔开出年薪2000万的续约合同

直播吧 浏览 15317

聚焦2025中国国际数字经济博览会·记者观察|释放数据价值,“乘”出产业转型新动能

纵览新闻 浏览 690

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 6641

网易2023 Q2财报:净收入240亿元,AI技术助自研游戏爆款频出

网易科技报道 浏览 13996

CEO们不再为了流量吹牛,挺好的

汽车公社 浏览 62

瑙鲁断交声明重击台当局 吴钊燮得知后"非常愤怒"

环球时报国际 浏览 12583

马斯克:下周将在X平台上直播特斯拉FSD驾驶系统V12版本

IT之家 浏览 14037

捷克总统请求中国提供新冠病毒疫苗,白眼狼终于走投无路了?

趣看热点 浏览 345958
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1