大模型攻击综述解读-天翼云开发者社区

1. LLMs攻击分类

1.1. 越狱攻击（Jailbreaks）

1.1.1. 基于Query的越狱攻击

Chao等人（2023）提出了提示自动迭代细化（PAIR）策略，通过迭代细化query，自动生成LLM的语义越狱，从而探测并绕过模型的防御。PAIR通过使用一个攻击LLM来迭代查询目标LLM，从而优化候选越狱（jailbreak）（通过迭代和智能Query，LLM是可预测和可操纵的）

PAIR主要包括四步：攻击生成、目标（target）回复、越狱得分、迭代优化

具体过程：初始化攻击系统提示（目标内容O和空的对话历史C）；在每个迭代中，攻击者生成提示P，并将P作为target的输入获得回复R；利用JUDGE函数评价（P, R），以判断是否发生越狱，得分S为1表示越狱；若没有越狱，根据之前的提示、回复和得分更新对话，重复之前的步骤。

1.1.2. 提示工程（Prompt Engineering）

Perez and Ribeiro等人(2022)证明在提示中嵌入一定的触发（trigger）单词或短语能够有效劫持模型决策过程，使其越过规定的道德约束。Ding等人（2023）利用嵌套的提示实现隐晦的、难以检测的越狱。（LLM的内容评价算法有缺陷，需要更复杂、上下文感知的自然语言处理，以辨别并消除操控性提示结构）

1.1.3. 跨模态和语言攻击（Cross-Modal and Linguistic Attack ）

Qi等人（2023a）表示LLM易受视觉提示和文本结合的多模态输入的影响，Qi等人利用模型处理非文本信息鲁棒性较差的特点进行攻击。Yong等人（2023）表示LLM处理资源匮乏语言时更加脆弱，通过将不安全的英语转换为资源不足的语言，能够绕过GPT-4的安全保障措施。

1.1.4. 通用和自动化的攻击策略（Universal and Automated Attack Strategies）

将特别选择的字符序列附加到用户的查询中，可能导致系统提供未经过滤的、可能有害的响应。Shah等人（2023b）利用LLM的角色或风格模拟能力生成攻击。

1.2. 提示注入（Prompt Injection）

1.2.1. 目标操纵（Objective Manipulation）

Abdelnabi 等人 (2023)提出的prompt攻击能够完全破坏LLM，在Bing Chat和Github Copilot上展现了实际可行性。Perez and Ribeiro (2022)提出PromptInject框架用于目标劫持攻击，揭示了提示错位的脆弱性。

1.2.2. 提示泄露（Prompt Leaking）

Liu et al. (2023b)提出一种黑盒提示注入攻击方法（HOUYI），该方法包括三个阶段：上下文推理（与目标应用程序交互以掌握其固有的上下文和输入输出关系）、负载生成（Payload Generation，根据获得的应用上下文和提示注入指南设计提示生成计划）、反馈（通过仔细审查 LLM 对注入提示的响应来衡量攻击的有效性，然后进行迭代细化以获得最佳结果），旨在诱使LLM将恶意负载解释为问题而不是数据负载。

1.2.3. 恶意内容生成（Malicious Content Generation）

为了解决恶意提示生成中的可扩展性挑战，Liu等人（2023a）提出了一种自动、可解释的、基于梯度的对抗攻击方法AutoDAN，通过生成可读提示绕过困惑滤波器（perplexity filter）并保持高攻击成功率。该方法将攻击视为一种优化问题并应用分层遗传算法，以在手工提示初始化的空间中搜索有效提示。Liu等人发现提示注入攻击与恶意问题相结合能绕过模型的安全功能，使LLM生成有害或令人反感的内容。

1.2.4. 操纵训练数据（Manipulating Training Data）

Zhao等人（2023b）提出了ProAttack，该方法诱导模型根据提示学习后门攻击触发模式，旨在利用特定的提示作为触发器来操纵下游任务的输出。作者利用特殊提示设计有毒样本，其标签标记正确。之后，使用有毒样本训练目标模型。该方法在躲避防御方面实现了近乎完美的成功率。

2. 缓解策略（Mitigation Strategies）

2.1. 外部：输入/输出过滤或守卫

检测对抗输入（输入滤波）或异常输出（输出过滤），消除对模型重训练的需求，例如OpenChatKit和NeMo-Guardrail

2.2 内部：模型训练/微调

2.2.1. 有监督的安全微调：

Touvron等人（2023）收集对抗性提示和其安全演示作为样本，使用这些样本作为监督微调流程中的一部分。这意味着在模型的训练过程中，会特别强调那些可能导致不安全输出的输入，并提供正确的响应作为目标，从而使模型学会识别并生成更安全的输出。

2.2.2. 安全微调作为RLHF（Reinforcement Learning from Human Feedback）中的一部分：

Bai等人（2022）证明RLHF技术能够使模型对于越狱尝试更加鲁棒。Touvron等人（2023）（Llama2）训练了安全奖励模型，基于手动收集的对抗性提示和响应。在这些响应中，选择从多个模型中获得的最安全的响应，然后使用这个奖励模型作为RLHF流程的一部分来安全调整模型。

1. LLMs攻击分类

1.1. 越狱攻击（Jailbreaks）

1.1.1. 基于Query的越狱攻击

PAIR主要包括四步：攻击生成、目标（target）回复、越狱得分、迭代优化

1.1.2. 提示工程（Prompt Engineering）

1.1.3. 跨模态和语言攻击（Cross-Modal and Linguistic Attack ）

1.1.4. 通用和自动化的攻击策略（Universal and Automated Attack Strategies）

1.2. 提示注入（Prompt Injection）

1.2.1. 目标操纵（Objective Manipulation）

1.2.2. 提示泄露（Prompt Leaking）

1.2.3. 恶意内容生成（Malicious Content Generation）

1.2.4. 操纵训练数据（Manipulating Training Data）

2. 缓解策略（Mitigation Strategies）

2.1. 外部：输入/输出过滤或守卫

检测对抗输入（输入滤波）或异常输出（输出过滤），消除对模型重训练的需求，例如OpenChatKit和NeMo-Guardrail

2.2 内部：模型训练/微调

2.2.1. 有监督的安全微调：

2.2.2. 安全微调作为RLHF（Reinforcement Learning from Human Feedback）中的一部分：

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

大模型攻击综述解读

大模型攻击综述解读

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

大模型攻击综述解读

大模型攻击综述解读