关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4390人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

村支书逆袭:如何把集体的“包袱”变成个人的“聚宝盆”?

壹只灰鸽子 浏览 2921

国乒再添一喜!孙颖莎王曼昱被清华大学拟录取,双子星推免直硕

乒谈 浏览 3412

“这条围巾”才是今年的顶流单品,时髦的女人都有它

LinkFashion 浏览 3944

二次封后的宋佳凭什么狂妄?

无处不风景love 浏览 3938

从“白幼瘦”到“气血感”,审美标准终于“健康”了?

Yuki女人故事 浏览 3556

记者:佛罗伦萨球员不满基恩500万高薪,后者态度也存在问题

懂球帝 浏览 3680

王健林和王思聪同一天上热搜!都是因为欠钱,父子被执行超52亿…

火山诗话 浏览 4746

交通标志设置不合理致5814次"被违章" 当地:重新设置

封面新闻 浏览 8974

WLTC纯电续航180km 比亚迪海獭正式亮相

车质网 浏览 4136

跨年夜秀恩爱!张杰谢娜借位接吻,李川求婚

萌神木木 浏览 2700

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

静儿时尚达人 浏览 2559

对话倪海厦传承人,为什么说多数赛博中医会走不下去?

虎嗅APP 浏览 3351

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 110385

中科大团队实现AI图表数学逻辑理解

科技行者 浏览 3899

海信CES发布全新一代RGB-Mini LED电视,搭载“玲珑4芯”真彩背光

IT之家 浏览 3179

患者花费超14万手术 副主任医师把价值10万新器材扔了

重案组37号 浏览 5361

全新旗舰级SUV 奥迪Q9霍希版谍照曝光

车质网 浏览 3230

马斯克谈AI未来:五年后手机和APP将消失,人类文明在模拟世界的存亡

深蓝财经 浏览 3961

赵伟:增量财政资金落地

首席经济学家论坛 浏览 4147

秋天穿衣没那么难,快从这些穿搭中收获灵感,显瘦又不落俗套

静儿时尚达人 浏览 6317

《我的山与海》遭受痛批,年代剧要的是接地气

娱乐圈笔娱君 浏览 2288
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1