关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3251人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 3505

美国或"最快本周"再次对俄罗斯动手 已和27国讨论计划

澎湃新闻 浏览 12819

早春绝美cp:九分裤+运动鞋

Yuki女人故事 浏览 1840

日本派大学生+以小打大仍5-0叙利亚 黄健翔惊叹 :夺世界杯非玩笑

我爱英超 浏览 2031

公益行,中国足协“女足进校园”活动走进贵州省毕节市织金县

懂球帝 浏览 2812

万科三季度净利润亏损160.69亿,深铁今年第十次“输血”

财视传播 浏览 2913

李鸿其王紫璇官宣结婚

扒虾侃娱 浏览 2774

多名美高官将参与监督在委事务 特朗普:最终由我负责

每日经济新闻 浏览 8479

曼城过往6战多特仅1负,两队近4次交手曼城3胜1平

懂球帝 浏览 2874

TA:德罗认为自己在巴萨没有清晰的发展路径,巴萨对此很无奈

懂球帝 浏览 1852

何时结束战事 美以不同调:一个急于退场一个还想硬刚

环球网资讯 浏览 893

创女子体育新高,WTA与梅赛德斯-奔驰达成每年4700万美元合同

懂球帝 浏览 2306

《疯狂动物城2》之后,更炸的大片来了

独立鱼 浏览 2150

从“土三轮”到“全球潮品”,这里的“三蹦子”何以“闯世界”

新华社 浏览 2987

又到每年假装自己是汤唯的时候了

时尚COSMO 浏览 2876

今年流行“洋葱式”穿法,这样穿高级又好看!

LinkFashion 浏览 2254

停火协议第一阶段生效后 加沙小男孩光脚踏上回家路

国际在线 浏览 3118

高德放“榜”30天:百度携程“硬杠”,抖音小红书“包抄”

伯虎财经 浏览 3212

奔驰小G谍照,或搭混动或燃油动力

懂车之道 浏览 2328

当众辱骂阿隆索!1.5亿欧熊皇惹怒老佛爷+更衣室 皇马准备处罚他

风过乡 浏览 2996

大张伟和老婆腻歪,当一个42岁叛逆“小娇夫”

凌风的世界观 浏览 2350
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1