关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4345人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

最强Air!苹果全新iPad Air发布:M4芯片加持 4799元起

快科技 浏览 2441

金莎穿娃娃领白衬衣领证,衬衫很宽松显肚子

秋姐居 浏览 1547

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 4338

上海81岁外公卖房还债租房照顾2个未成年外籍外孙女

大风新闻 浏览 113276

希瑞发布智能戒指 “全天候”健康生态野心初显

环球网资讯 浏览 4046

高市暗藏意图:引入核武器 获取打击中国腹地能力

国际在线 浏览 16156

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 3549

天空:曼联在关注雷恩中卫雅凯,他冬窗不太可能加盟

懂球帝 浏览 3189

中国代表:日本必须深刻反省历史罪责停止挑衅越线

新华社 浏览 3465

美被指向以色列通报对伊朗行动准备进展

每日经济新闻 浏览 2973

苹果计划为 iPad Pro 引入 iPhone 17 Pro 的均热板散热

威锋网 浏览 3942

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 4029

直击MWC2026|AI重构通信网络,6G“卡位战”提前到来

第一财经资讯 浏览 2330

戚薇夫妻现身机场!李承铉穿泰迪熊大衣一头白发

料峭春寒洞 浏览 2868

这届双十一,充满了“AI味”与“本地生活味”

连线Insight 浏览 3993

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 4175

79岁一代文艺女神走了:终生未婚,一辈子穿西装

世界音乐公号 浏览 4138

StereoAdapter:北大首提自监督,适配水下双目深度估计

新智元 浏览 4155

利雅得胜利客战利雅得体育:C罗缺阵,菲利克斯、马内先发

懂球帝 浏览 2785

OpenAI:人类打字速度将成通用人工智能发展瓶颈

IT之家 浏览 3348

以军称开始重新执行加沙停火协议

上观新闻 浏览 3813
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1