关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4348人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

申花亚冠赛季首胜!连战蔚山首尔不败,阿苏埃建功,延续5大纪录

奥拜尔 浏览 4140

王小川批医疗AI“假东西太多”!新模型幻觉率仅2.6%,两周免费

智东西 浏览 3069

千亿自助餐市场,正在跑出第一家IPO

餐饮老板内参 浏览 2961

“小度”“小爱”能当AI老师吗?小小“数字原住民”出现“幼儿主体性”危机

上观新闻 浏览 3998

国足出战FIFA系列赛!媒体人热议:托国际足联福,别一直闭门造车

奥拜尔 浏览 3168

11月国内动力电池装车量93.5GWh,磷酸铁锂占比八成‌

汽车公社 浏览 3385

泰柬在13条战线上交战 泰总理:愿意接听特朗普电话

环球网资讯 浏览 3487

小黑靴不流行了?今年冬天最火的靴子竟然是它

LinkFashion 浏览 3256

男子失业后瞒家人在车里住7天 车子手机都没电后哭了

极目新闻 浏览 31383

哈马斯领导人空缺15个月后重组在即 2人成为热门人选

红星新闻 浏览 8283

背靠腾讯、跟阿里抢商标的淘车车,“流血”冲击港股IPO

经济观察报 浏览 735

上映6天,把26天票房冠军动物城2打懵了

糊咖娱乐 浏览 2636

鑫元基金,出了个年度“亏损王”

深蓝财经 浏览 3114

多次被传出轨家暴后,小S公开与许雅钧真实状况

动物奇奇怪怪 浏览 112

大陆制裁3家涉对台军售美企 国台办回应

界面新闻 浏览 4333

牛弹琴:荷兰控制中企简直"白痴" 现在给中国道歉晚了

大象新闻 浏览 7786

埃尔多安指责以色列违反加沙停火协议

新华社 浏览 4068

中科大团队实现AI图表数学逻辑理解

科技行者 浏览 3867

阿斯:巴萨接近回归财务1:1,今夏或可恢复正常转会操作

懂球帝 浏览 2861

特朗普抓获委内瑞拉总统马杜罗的前因后果

澎湃新闻 浏览 3170

爱马仕继承人,千亿家产被最好的朋友骗光

Yuki女人故事 浏览 3643
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1