searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

RobustRAG防攻击污染框架思路

2024-08-06 09:36:28
24
0

RobustRAG:为防止恶意检索污染攻击的RAG方案

对应论文:《Certifiably Robust RAG against Retrieval Corruption》

出发点:RAG模型依赖外部知识库的检索结果,容易受到恶意的检索污染攻击(Retrieval Corruption Attacks)。例如,攻击方在检索结果中加入虚假/误导性文本 -> 使模型输出错误甚至有害的内容 -> 影响模型可靠性和实用性

方法:

例子:RobustRAG 隔离每个段落,只有一个隔离的回复被破坏,因此RobustRAG可以安全地汇总非结构化文本回复,以获得稳健的输出 

具体地:采用“先隔离后聚合”策略

1)隔离回复:对于检索到的每一段文本,独立地获取LLM回复,以限制恶意文本对其他回复的影响;

2)安全聚合:设计基于关键词和解码的聚合方案,以安全的方式聚合独立回复,生成最终的输出。

a.     关键词聚合:

提取LLM回复的关键词-> 聚合关键词,过滤出现频率低的关键词-> 再使用高频的关键词提示LLM,生成最终回复

b.     解码聚合:(当下一个token概率分布具有额外访问权限时,获得更优的答案)

对立解码每个文本,得到LLM预测下一个次的概率分布向量-> 聚合得到的概率向量,使用元素级平局获得新的概率分布-> 生成回复:根据概率分布预测下一个词,至达到最大token数(完整的回复),若预测置信度低则参考无检索结果时LLM的预测

0条评论
作者已关闭评论
李****戈
6文章数
0粉丝数
李****戈
6 文章 | 0 粉丝
原创

RobustRAG防攻击污染框架思路

2024-08-06 09:36:28
24
0

RobustRAG:为防止恶意检索污染攻击的RAG方案

对应论文:《Certifiably Robust RAG against Retrieval Corruption》

出发点:RAG模型依赖外部知识库的检索结果,容易受到恶意的检索污染攻击(Retrieval Corruption Attacks)。例如,攻击方在检索结果中加入虚假/误导性文本 -> 使模型输出错误甚至有害的内容 -> 影响模型可靠性和实用性

方法:

例子:RobustRAG 隔离每个段落,只有一个隔离的回复被破坏,因此RobustRAG可以安全地汇总非结构化文本回复,以获得稳健的输出 

具体地:采用“先隔离后聚合”策略

1)隔离回复:对于检索到的每一段文本,独立地获取LLM回复,以限制恶意文本对其他回复的影响;

2)安全聚合:设计基于关键词和解码的聚合方案,以安全的方式聚合独立回复,生成最终的输出。

a.     关键词聚合:

提取LLM回复的关键词-> 聚合关键词,过滤出现频率低的关键词-> 再使用高频的关键词提示LLM,生成最终回复

b.     解码聚合:(当下一个token概率分布具有额外访问权限时,获得更优的答案)

对立解码每个文本,得到LLM预测下一个次的概率分布向量-> 聚合得到的概率向量,使用元素级平局获得新的概率分布-> 生成回复:根据概率分布预测下一个词,至达到最大token数(完整的回复),若预测置信度低则参考无检索结果时LLM的预测

文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0