1. LLMs攻击分类
1.1. 越狱攻击(Jailbreaks)
1.1.1. 基于Query的越狱攻击
Chao等人(2023)提出了提示自动迭代细化(PAIR)策略,通过迭代细化query,自动生成LLM的语义越狱,从而探测并绕过模型的防御。PAIR通过使用一个攻击LLM来迭代查询目标LLM,从而优化候选越狱(jailbreak)(通过迭代和智能Query,LLM是可预测和可操纵的)
PAIR主要包括四步:攻击生成、目标(target)回复、越狱得分、迭代优化
具体过程:初始化攻击系统提示(目标内容O和空的对话历史C);在每个迭代中,攻击者生成提示P,并将P作为target的输入获得回复R;利用JUDGE函数评价(P, R),以判断是否发生越狱,得分S为1表示越狱;若没有越狱,根据之前的提示、回复和得分更新对话,重复之前的步骤。
1.1.2. 提示工程(Prompt Engineering)
Perez and Ribeiro等人(2022)证明在提示中嵌入一定的触发(trigger)单词或短语能够有效劫持模型决策过程,使其越过规定的道德约束。Ding等人(2023)利用嵌套的提示实现隐晦的、难以检测的越狱。(LLM的内容评价算法有缺陷,需要更复杂、上下文感知的自然语言处理,以辨别并消除操控性提示结构)
1.1.3. 跨模态和语言攻击(Cross-Modal and Linguistic Attack )
Qi等人(2023a)表示LLM易受视觉提示和文本结合的多模态输入的影响,Qi等人利用模型处理非文本信息鲁棒性较差的特点进行攻击。Yong等人(2023)表示LLM处理资源匮乏语言时更加脆弱,通过将不安全的英语转换为资源不足的语言,能够绕过GPT-4的安全保障措施。
1.1.4. 通用和自动化的攻击策略(Universal and Automated Attack Strategies)
将特别选择的字符序列附加到用户的查询中,可能导致系统提供未经过滤的、可能有害的响应。Shah等人(2023b)利用LLM的角色或风格模拟能力生成攻击。
1.2. 提示注入(Prompt Injection)
1.2.1. 目标操纵(Objective Manipulation)
Abdelnabi 等人 (2023)提出的prompt攻击能够完全破坏LLM,在Bing Chat和Github Copilot上展现了实际可行性。Perez and Ribeiro (2022)提出PromptInject框架用于目标劫持攻击,揭示了提示错位的脆弱性。
1.2.2. 提示泄露(Prompt Leaking)
Liu et al. (2023b)提出一种黑盒提示注入攻击方法(HOUYI),该方法包括三个阶段:上下文推理(与目标应用程序交互以掌握其固有的上下文和输入输出关系)、负载生成(Payload Generation,根据获得的应用上下文和提示注入指南设计提示生成计划)、反馈(通过仔细审查 LLM 对注入提示的响应来衡量攻击的有效性,然后进行迭代细化以获得最佳结果),旨在诱使LLM将恶意负载解释为问题而不是数据负载。
1.2.3. 恶意内容生成(Malicious Content Generation)
为了解决恶意提示生成中的可扩展性挑战,Liu等人(2023a)提出了一种自动、可解释的、基于梯度的对抗攻击方法AutoDAN,通过生成可读提示绕过困惑滤波器(perplexity filter)并保持高攻击成功率。该方法将攻击视为一种优化问题并应用分层遗传算法,以在手工提示初始化的空间中搜索有效提示。Liu等人发现提示注入攻击与恶意问题相结合能绕过模型的安全功能,使LLM生成有害或令人反感的内容。
1.2.4. 操纵训练数据(Manipulating Training Data)
Zhao等人(2023b)提出了ProAttack,该方法诱导模型根据提示学习后门攻击触发模式,旨在利用特定的提示作为触发器来操纵下游任务的输出。作者利用特殊提示设计有毒样本,其标签标记正确。之后,使用有毒样本训练目标模型。该方法在躲避防御方面实现了近乎完美的成功率。
2. 缓解策略(Mitigation Strategies)
2.1. 外部:输入/输出过滤或守卫
检测对抗输入(输入滤波)或异常输出(输出过滤),消除对模型重训练的需求,例如OpenChatKit和NeMo-Guardrail
2.2 内部:模型训练/微调
2.2.1. 有监督的安全微调:
Touvron等人(2023)收集对抗性提示和其安全演示作为样本,使用这些样本作为监督微调流程中的一部分。这意味着在模型的训练过程中,会特别强调那些可能导致不安全输出的输入,并提供正确的响应作为目标,从而使模型学会识别并生成更安全的输出。
2.2.2. 安全微调作为RLHF(Reinforcement Learning from Human Feedback)中的一部分:
Bai等人(2022)证明RLHF技术能够使模型对于越狱尝试更加鲁棒。Touvron等人(2023)(Llama2)训练了安全奖励模型,基于手动收集的对抗性提示和响应。在这些响应中,选择从多个模型中获得的最安全的响应,然后使用这个奖励模型作为RLHF流程的一部分来安全调整模型。