点赞

收藏

评论

分享

原创

RobustRAG防攻击污染框架思路

2024-08-06 09:36:28

27

0

RobustRAG：为防止恶意检索污染攻击的RAG方案

对应论文：《Certifiably Robust RAG against Retrieval Corruption》

出发点：RAG模型依赖外部知识库的检索结果，容易受到恶意的检索污染攻击（Retrieval Corruption Attacks）。例如，攻击方在检索结果中加入虚假/误导性文本 -> 使模型输出错误甚至有害的内容 -> 影响模型可靠性和实用性

方法：

例子：RobustRAG 隔离每个段落，只有一个隔离的回复被破坏，因此RobustRAG可以安全地汇总非结构化文本回复，以获得稳健的输出

具体地：采用“先隔离后聚合”策略

1）隔离回复：对于检索到的每一段文本，独立地获取LLM回复，以限制恶意文本对其他回复的影响；

2）安全聚合：设计基于关键词和解码的聚合方案，以安全的方式聚合独立回复，生成最终的输出。

a. 关键词聚合：

提取LLM回复的关键词-> 聚合关键词，过滤出现频率低的关键词-> 再使用高频的关键词提示LLM，生成最终回复

b. 解码聚合：（当下一个token概率分布具有额外访问权限时，获得更优的答案）

对立解码每个文本，得到LLM预测下一个次的概率分布向量-> 聚合得到的概率向量，使用元素级平局获得新的概率分布-> 生成回复：根据概率分布预测下一个词，至达到最大token数（完整的回复），若预测置信度低则参考无检索结果时LLM的预测

0条评论

作者已关闭评论

6文章数

0点赞数

0粉丝数

李****戈

6 文章 | 0 粉丝

Ta的热门文章查看更多

RobustRAG防攻击污染框架思路 RAG框架发展综述 RAG评估方法综述解读大模型攻击综述解读 LLM相关基础知识概念

6文章数

0点赞数

0粉丝数

李****戈

6 文章 | 0 粉丝

原创

RobustRAG防攻击污染框架思路

2024-08-06 09:36:28

27

0

RobustRAG：为防止恶意检索污染攻击的RAG方案

对应论文：《Certifiably Robust RAG against Retrieval Corruption》

出发点：RAG模型依赖外部知识库的检索结果，容易受到恶意的检索污染攻击（Retrieval Corruption Attacks）。例如，攻击方在检索结果中加入虚假/误导性文本 -> 使模型输出错误甚至有害的内容 -> 影响模型可靠性和实用性

方法：

例子：RobustRAG 隔离每个段落，只有一个隔离的回复被破坏，因此RobustRAG可以安全地汇总非结构化文本回复，以获得稳健的输出

具体地：采用“先隔离后聚合”策略

1）隔离回复：对于检索到的每一段文本，独立地获取LLM回复，以限制恶意文本对其他回复的影响；

2）安全聚合：设计基于关键词和解码的聚合方案，以安全的方式聚合独立回复，生成最终的输出。

a. 关键词聚合：

提取LLM回复的关键词-> 聚合关键词，过滤出现频率低的关键词-> 再使用高频的关键词提示LLM，生成最终回复

b. 解码聚合：（当下一个token概率分布具有额外访问权限时，获得更优的答案）

对立解码每个文本，得到LLM预测下一个次的概率分布向量-> 聚合得到的概率向量，使用元素级平局获得新的概率分布-> 生成回复：根据概率分布预测下一个词，至达到最大token数（完整的回复），若预测置信度低则参考无检索结果时LLM的预测

文章来自个人专栏

文章 | 订阅

0条评论

作者已关闭评论

作者已关闭评论

0

0