爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

陈涛：我们最...

伊利诺伊大学...

委内瑞拉外长...

＂特朗普级＂...

罗晋唐嫣婚变...

两位省委常委...

美股芯片股全线大跌，希捷科技盘后猛涨17%，国际油价涨超3%

百万粉丝网红小英丈夫被刑拘夫妻已数月未住村里

陈凯歌做梦也没想到，竟有一天会因儿子陈飞宇，实现口碑暴增

胡塞武装宣布：打掉隶属美以沙三方间谍网络

特拉维夫多处建筑遭袭相关区域实施严格管制

特朗普：乌克兰无牌可打错过解决俄乌问题的最佳时机

5-1狂胜仍不敢怠慢！法鹰欧冠逆天赛程：马竞利物浦那不勒斯巴萨

15万也能开出头等舱质感，试驾锐胜M8

OpenAI发力机器人与AI设备，被爆寻找美国供应商

苹果发布iPhone 17e与新款iPad Air，定价不变主打中端市场

业内曝娜扎被抢休息室，刘亦菲聊天被保镖监听，好精彩的后台大瓜

AI改变金融系统，周小川、肖远企发声

从“贝塔躺赢”到“阿尔法精选”！公募2026年南下新打法曝光

徐彬：邵指导是第一个想让我出去踢球的；拿手菜有把子肉

美媒称马杜罗请求普京提供导弹等援助佩斯科夫回应

卡莱特推出Mica P100产线机器人

今年秋天的上衣，太上头了！

涉诈百亿！影视巨头华文映像创始人被抓

好久没对一双鞋这么心动了！

秋季穿衣别太老气横秋，看看这27套造型，时尚舒适又显高

上海网友在日料店里吃出蛆虫蛆虫还在炸鸡上蠕动

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

问界新M5 Ultra全新一轮OTA升级 ADS 4全面上车

2025款比亚迪海狮05 EV完全评价报告