关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3378人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

57岁具俊晔又瘦了很多,背影憔悴走路不稳

素素娱乐 浏览 34

面见查尔斯后,哈里夫妇首度合体亮相

草莓解说体育 浏览 3836

14岁休学少女进拓展营后死亡 曾哭喊"妈妈我不想死"

新京报 浏览 37202

北京现代首款纯电平台SUV EO羿欧预售在即

网易汽车 浏览 3312

MiniMax把自家“实习生”放出来了!

量子位 浏览 2088

抢占本土聊天机器人市场,印度AI企业Sarvam推出Indus应用

IT之家 浏览 1488

明年一季度利率上限降至20% 消费金融迎来“阵痛期”

21世纪经济报道 浏览 2905

新研究让大模型学会主动追问,人机协作效果大幅提升

DeepTech深科技 浏览 2090

最近很火的5条裤子,腿粗、腿不直女孩一定要试试!

Yuki女人故事 浏览 5197

中山大学等九校联手突破:AI实现软件bug自动侦测与修复

科技行者 浏览 2010

官方:31岁巴西中场杜黄轩获得越南国籍,1月可为越南队出战

懂球帝 浏览 3265

曹德旺退休其子接棒 老了……

道哥说车 浏览 3183

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 31458

突发!一辆理想MEGA行驶中起火爆燃!

电动知家 浏览 3139

锂电行业“反内卷”持续推进,四部委:坚决抵制不合理、不正当竞争行为

澎湃新闻 浏览 435

岁月不败美人,50岁银发的她们也太会穿了

LinkFashion 浏览 2443

聚焦第五届上海知识产权创新奖——中国科学院上海微系统与信息技术研究所成果转化处

上观新闻 浏览 3118

纽约州签署《RAISE法案》,推动人工智能安全监管

IT之家 浏览 2435

IPO倒计时,解码希迪智驾“攻守道”

第一财经资讯 浏览 2507

业界首款攻克全金属与信号共存难题?华为Mate 80系列外观公布

IT之家 浏览 2877

华为研究团队突破代码修复瓶颈,8B模型击败32B巨型对手!

科技行者 浏览 2194
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1