电话:020-66888888
您还可以在Ragea系统中窃取内存:隐藏有效数据提
作者:bet356体育官方网站 发布时间:2025-06-06 13:25
本文的作者来自新加坡国立大学,北京大学和Tingua大学。第一作者Wang Yuhao和Co author Qu Wenjie来自新加坡国立大学,他的研究讲话重点关注大型语言模型的安全性和隐私风险。合作社是北京大学的Zhai Shengfang博士,讲师是新加坡国立大学的助理教授张江教授。这项研究的重点是广泛使用的抹布系统(寻求生成),并提出了一种新的黑色现金攻击方法:一种隐式知识提取攻击(IKEA)。与以前依赖于快速注射或越狱操作的RAG提取攻击方法不同,宜家独立于例外说明,可以有效地指导系统通过自然和常规咨询将个人信息暴露于知识库。在基于多个实际数据集和真实的评估中防御方案,宜家的提取效率超过91%,攻击成功率远远超过了现有的攻击基线。此外,该文档研究了通过多个实验暗示提取的抹布数据的有效性。这项研究确定了“异常”表面相互作用中抹布系统的严重隐私风险。本研究的文档和代码是开源的。文档标题:静音泄漏:通过良性纸链接纸张中的默示知识提取攻击纸:https://arxiv.org/pdf/2505.15420代码链接链接:https://github.com/wangub.com/wangueha06/ikea.git soft of to domain或特定信息的大型语言模型的软性代码。为此,T系统是Bornrapo(恢复的生成),将大型模型与外部知识库联系起来,这使生成的内容更加精确,实时。但是,这些知识库通常包含私人或机密信息。恶滥用会导致严重的数据违规。先前的攻击方法主要取决于“恶意输入”,例如快速注射和越狱攻击。这种类型的攻击是有效的,但是典型的特征(例如例外和复制郊游)也很容易被防御系统识别和拦截。 1:使用恶意咨询在单词中提取单词信息与知识提取(IKEA)的比较是打破现有提取攻击的防御机制的局限性。在本文中,我们提出了一种新的隐性知识提取框架宜家(提取攻击ottap知识)。此方法不应依靠取消指令或专业指示,而应逐渐指导抹布系统通过进入传统自然咨询来将私人或机密信息暴露于内部知识库。宜家的攻击过程非常自然和隐藏。它的cenTRAL步骤包括:首先是根据已知系统问题构建一组与语义相关的锚概念。接下来,围绕这些概念产生了根据自然语言习惯的问题,并用于触发系统以恢复相关文档。最后,对攻击路线进行了优化,并通过两个重要机制扩展。实验反射采样:基于历史咨询和响应记录,对可能产生效应响应的锚概念进行了动态评估和排除,从而改善了查询与信息提取率之间的关联。针对信任领域的突变:扩展围绕锚点语义的概念并控制着相似性和语义进步,这是对仍然无法掌握的知识领域的持续研究。上述机制共同起作用,使攻击过程保持入口的自然性,同时允许T他的抹布系统有效地提取基于多个互动回合的外部知识内容。实验表明,宜家可以在防御机制(例如传统的进入检测和输出过滤)下保持高成功和提取效率,表明强大的鲁棒性和可能的​​实际威胁。该方法的摘要:如何实现“似乎是正常”的问题?特定于宜家的第一个过滤与系统问题相关的概念词,并将历史响应信息结合到过滤无关或无关的概念点的概念。锚概念数据库的初始化如下:以下内容,系统会自动生成围绕这些锚概念的语义和流体表达问题,这使他们能够将丰富的回答返回对抹布,从而不断扩展多个交互作用中隐私知识的覆盖范围。该策略阻碍了攻击过程,并使检测由于传统而困难Al检测方法。以下是产生“仁慈”问题的特定方式。该方法设计了两种重要机制,以确保知识提取的效率。针对该地区(TRDM)体验的反射抽样经验突变(TRDM)的反射抽样保持具有历史记录,可以在宜家攻击过程中注册每轮咨询对。该系统根据此历史信息确定非valid锚的概念。换句话说,您不能指导抹布返回有用的知识。该试验的基础包括:如果响应内容是“拒绝”信息(如“我不知道”),则相应的咨询被认为是域外(非典型勇敢)。咨询和响应之间的语义相似性小于阈值和相关的(无关)样本。每个候选锚概念的抽样概率由以下惩罚分数函数定义:PR最终抽样的适当性如下:由信任区域(由信任区域指导的突变)指示的突变图2 :(左)整个宜家流动腹泻。 (右)TRDM图涵盖了RAG知识库的仍然未知区域的宜家提出了TRDM机制。这种机制的核心思想是为目前对发现的知识领域有效的咨询对逐步移动提出问题。具体而言,TRDM使用多个目标响应对之间的相似性来估计“地址”,该“地址”指出了原始咨询的可能的抹布数据输入。当控制一个新锚的概念并躺在语义响应社区中,并寻找与该邻居的原始咨询更相似的术语时,TRDM实现“在语义方向上移动锚点”来探索新知识。定义如下:它开始,在“语义tr”中寻找锚定的新单词其中包括语言模型产生的单词的集合,与答案相似。此外,为了避免在同一语义区域内无效的锚词的无效产生,宜家定义了一个突变的逮捕功能。如果满足以下任何条件,这将返回真实:如果满足了以下任何条件:返回到true tore tore tore to the实验效果远远超过了IKEA的攻击。数据集(HealthCaremagic100K,Nove-HarryPotter和Prokeclopedia-Pokémon的比较)是基于三个防御策略的宜家和其他攻击方法。我们评估了问题的极端知识的表现D与相应文档有关的答案。其次,我们评估了在完整知识库中有限攻击下提取的覆盖范围和知识支持特征。实验结果表明,宜家不仅可以从抹布系统中有效提取信息,而且提取的知识还表明了问题和答案的任务的良好实用性,这表明其性能更接近使用原始知识库的使用。提取知识有效性评估。在三个数据集中对宜家效应进行了对MCQ与Q的提取的知识,并将其与原始片段进行了比较,而没有参考方案。结果表明,在双重防御下提取的知识可显着提高响应的精度和质量。提取的是指宜家提取的构建知识库使用者文本片段。来源意味着评估数据集中的原始参考片段,而空的事物则不意味着不明智在回答问题时启动它们。参考上下文。图3:基于三种不同知识基础设置的多个问题任务(MCQ)和问题和答案的结果表2:多项选择问题的结果以及在不同的防御和不同的辩护中的问题和答案的任务,例如使用由替代的RAG系统构建的替代抹布系统,在完整的Pokémon数据数据数据中评估。在多个选择任务(MCQ)和开放式问题和答案(QA)中使用时,宜家提取的知识比其他攻击方法要好得多。表3:基于D BASEE对基于不同攻击方法提取的数据的完整知识评估抹布系统的结果,提出了基于IKEA攻击摘要的高度隐藏抹布系统的新攻击范式。在自然语言生成策略和经验反馈机制的帮助下b在历史互动中,宜家可以有效避免现有的防御措施输入和输出水平,从而实现系统中敏感知识的持续有效提取。这项研究发现了抹布系统在知识提取中的潜在脆弱性,并为后部和更全面的防御机制设计提供了重要的参考。
电话
020-66888888