关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2208人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

活塞108-105险胜太阳,阿伦空砍33分,活塞关键时刻连丢罚球

懂球帝 浏览 936

新一期U17国足集训名单出炉:浮嶋敏挂帅,邝兆镭、帅惟浩在列

懂球帝 浏览 894

SpaceX将于10月14日最后一次发射"星舰V2"

IT之家 浏览 2095

一笑随歌李沁陈哲远短短37秒吻戏床戏都上尺度了

陈意小可爱 浏览 1905

继《沉默的荣耀》后又一黑马谍战作品

娱乐圈笔娱君 浏览 1723

破亿品牌数增长,3万品牌成交翻倍,今年双11的商业变革悄然开始

一点财经 浏览 1927

车崇健被嘉宾集体吐槽!Papi直言他听不懂人话,网友喊话别复合了

萌神木木 浏览 1863

中老年女人穿对衣才优雅!试试这3个穿搭法则,不扮嫩不油腻

静儿时尚达人 浏览 1022

《用武之地》票房崩塌:这块金字招牌算砸了

靠谱电影君 浏览 1089

小米米家空气净化器连续十年中国线上销量第一,出货量破2500万

IT之家 浏览 1213

7场贡献3球1助攻,麦肯尼当选尤文1月最佳球员

懂球帝 浏览 694

空乘穿毛衣上班被吐槽“很土” 山东航空回应

大风新闻 浏览 7992

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 11653

爆破试验带你看巡飞弹飞龙-60A有多强

环球网资讯 浏览 2731

媒体:爱泼斯坦案2000段视频公布 震碎三观突破下限

北京日报客户端 浏览 5261

B级车杀入八万元区间,汽车的价格战到底路在何方?

江瀚视野 浏览 2086

77岁大爷孤身赴柬埔寨见网友流浪数日:互联网喊我来的

潇湘晨报 浏览 7689

NBA战报:凯尔特人119-114逆转热火,安芬尼-西蒙斯39+4+4

懂球帝 浏览 894

《一路繁花2》要封神?5位综艺强者登场,预告连刷4遍不过瘾

娱乐圈笔娱君 浏览 2124

从一秒起身的机器人到降本80%的数据,鹿明机器人破解具身机器人智能化困境

雷峰网 浏览 1082

中国最会化妆的男富豪,一把套现15亿!什么信号?

深蓝财经 浏览 767
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1