searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

模型内生安全调研

2025-06-06 08:26:35
12
0
详细参考资料:
《人工智能内生安全白皮书2024》
《大模型安全研究报告2024》

一、内生安全概念

人工智能内生安全指的是人工智能系统自身和应用运行时存在的脆弱性,导致应用运行时无法达到预期目标。包含 AI 基础设施安全问题、数据安全与隐私问题、模型安全问题以及应用服务安全风险问题,影响系统的正常运行和可靠性。

二、内生安全面临的风险问题

  1. AI 基础设施安全

    • 基础设施硬件风险:面临物理攻击、侧信道攻击、故障注入攻击等,可能导致芯片内部敏感信息泄露。
    • 操作系统风险:存在安全漏洞、后门、弱口令等,易被黑客利用,破坏内核完整性,导致敏感信息泄露和业务停滞。
    • 容器风险:可能出现镜像篡改、启动异常和逃逸攻击等,影响 AI 业务正常运行。
    • AI ping台风险:面临 API 认证和授权、Web 漏洞攻击、资源隔离与调度等风险,可能导致数据丢失和业务停滞。
    • AI 框架风险:框架漏洞可被攻击者利用,传播恶意软件,影响 AI 业务和数据安全。
    • AI 基础设施承zai资产风险:高价值模型等资产易被非法窃取,造成商业机密丢失和版权利益损失。
  1. 数据安全

    • 传输截获风险:在进行 AI 模型非私有化的预训练、精调、推理服务时,数据需要在不同的主体或部门之间进行传输。这些数据通常包括各种敏感信息和隐私,如个人身份信息、金融数据等。在数据传输过程中,如果没有采取足够的安全措施,攻击者可能会截获这些数据,从而获取用户或组织的敏感信息。
    • 运营方窥探风险:运营方可能窥探或滥用微调与推理阶段使用的敏感数据。
    • 模型记忆风险:经过模型的训练和推理后,模型会形成记忆,因而对于部署到生产环境中的模型,其输出可能会暴露训练数据的一些信息。攻击者可以通过分析模型的输出,推断出训练数据的特征和分布,进而构建类似的数据集,甚至还原部分原始数据。
  1. 模型安全

    • 模型逆向工程风险:攻击者可通过逆向工程还原模型架构、权重和训练数据,导致知识产权盗窃、模型盗用、暴露安全漏洞等风险。
    • Prompt 攻击风险:在大模型推理阶段可能面临恶意 prompt 注入攻击的风险。攻击者通过特殊的 prompt 工程技术,与 LLM 的工具模块进行非法交互,从而实现非法调用 LLM 后台工具;或者迫使大模型脱离其内在安全机理,导致模型生成不适当的内容或造成敏感信息泄露和篡改等后果。具有代表性的攻击包括:角se扮演攻击、目标劫持攻击、反向诱导攻击和提示词泄露等。
    • 模型幻觉问题:包括事实性幻觉(生成错误事实内容)和忠实性幻觉(生成内容与指令或上下文偏差)。
    • 模型更新和演化风险:模型参数更新可能引入新漏洞和风险,需考虑版本控制等。
  1. 应用服务安全

    • 用户提问行为风险:包括 AIGC 盗爬(大模型生成的内容可能会被恶意爬虫大规模复制、传播,造成信息泄露和盗用。)、垃圾提问 / 重复提问(大模型应用可能会被进行大量的无效提问、垃圾提问,或者针对同一问题进行重复提问,从而对ping台造成压力和资源浪费,甚至诱导大模型生成不安全内容。)、大模型接口攻击 / 频率突破等(例如恶意用户通过对大模型应用 API发起大量请求,导致接口崩溃或服务中断。)。
    • 用户反馈行为风险:大模型应用在与用户进行对话时,可以收集用户对于大模型生成的每一条内容的反馈,攻击者通常会故意通过用户的反馈向模型中注入有毒数据,如投毒反馈、恶意反馈,从而干扰模型的正常学习和推理过程。攻击者通过这些手段来制造“噪音”或“污染”,使得模型无法准确理解和回答用户的问题或执行相关的任务。。
    • 用户提问内容风险:用户输入不安全信息可能导致模型生成不良输出,引发法律纠纷。
    • 大模型生成内容合规与滥用或恶意使用风险:涉及意识形态、违法犯罪、歧视、商业秘密 / 知识产权、虚假信息和误导性内容生成等方面的风险。
    • 大模型应用决策安全风险:包括模型误判、不可解释性、对抗性攻击、偏差与偏见等风险。

三、内生安全解决方案

  1. AI 基础设施安全

    • AI 基础设施自身安全
      • 硬件安全:物理攻击防护(对芯片进行特殊封装、增加pingbi层)、侧信道攻击防护(掩码技术、混淆技术)、故障注入攻击防护(逻辑冗余、时间冗余)、硬件可信根(安全启动、可信启动)。
      • OS 安全:具备威胁检测、可信计算、防护沙箱、内核完整性保护等能力。例如建立基于原生白名单和恶意文件检测引擎,提供动态持续监控与全盘saomiao两种模式实时监控系统状态,对多种文件深度识别,检测范围包括各类恶意程序。
      • 容器安全:实现容器镜像、启动、逃逸和集群安全检测。如基于日志、进程、文件、容器和系统调用等信息,从宿主机角度检测逃逸行为。
      • AI 框架安全:通过漏洞saomiao检测提升安全性,识别潜在漏洞以及非法访问行为。
      • AI ping台安全:保障 API、Web 安全,实现资源隔离与安全调度、身份认证与访问控制。如构建 API 全生命周期的威胁防护能力,在 API 调用过程中层层防护;Web 安全防护中不要直接对象引用,对不可信来源的直接对象引用执行访问控制检查。
    • AI 基础设施承zai资产安全:利用密码学、模型混淆等技术保护 AI 资产。如通过基于密码学、模型混淆、访问控制策略和硬件级的安全机密环境等技术手段,保护 AI 资产文件态和运行态安全,防止关键资产明文落盘、非法窃取、恶意访问等。
  1. 数据安全

    • AI 数据安全管理
      • 元数据管理:记录数据来源,确保使用行为合法、符合信息主体预期并尊重其权利,明确训练数据的训练业务场景,严禁使用为单一目的收集的数据用于训练其他目的的 AI 模型。
      • 重要数据资产识别:利用大模型的理解能力,实现针对训练数据资产的自动化、智能化的重要数据识别(隐私数据、企业机密等),解决数据量大、文本数据多、人工审核准确性与覆盖度难以保证等痛点,大幅度降低人力成本,并且不要重要数据资产进入模型训练而引发的数据泄露。
      • 访问控制管理:根据企业 AI 模型训练需求定义安全策略,提供不同级别的访问权限,以限制对训练数据库(表)、数据特征(列)、数据样本(行)级别的访问控制。对于具有敏感数据的训练数据库,使用单元格级别的安全控制策略保护敏感数据,严格限制访问训练数据库的权限。
      • 数据密态存储和流转:为确保重要数据在整个数据流转过程中的安全性,全程加密存储和传输,并将密钥托管到统一的密钥管理系统中。大模型运行ping台支持密文训练和推理能力,可使用多种加解密方案。
      • 日志审计:监控训练数据访问情况,记录训练数据访问行为,比如用户角se、尝试访问行为、访问时间等。定期审核访问日志,及时发现异常行为。
    • AI 数据安全增强
      • 数据投毒防御:在原数据进入数据库 / 数据湖前,对训练数据进行全面验证,如多个数据标注员共同验证数据标注的准确性;数据存储时加密并控制访问权限;定期监控训练数据是否存在异常,并进行数据安全审计以发现数据篡改,降低数据投毒风险。
      • 敏感数据识别:对训练数据、模型应用服务输出的内容进行敏感数据识别,根据企业业务需求制定过滤策略,使用大模型技术对业务中存在的个人身份信息、企业专有数据等敏感数据进行智能化识别,防止敏感数据泄漏。
      • 数据脱敏:针对已识别出的敏感数据,遵循相关法规要求进行严格管理,考虑 AI 模型训练性能、业务需求、数据安全等多方面因素,制定数据脱敏策略。如对问答日志信息进行自动化去标识化处理,对涉及用户隐私的输入信息进行脱敏处理。
  1. 模型安全

    • 模型训练安全:采用隔离环境,防止未授权访问,确保模型训练的隐私和安全性。引入训练数据的加密和隐私保护措施,防范敏感信息泄露风险,满足隐私标准。
    • 模型流转安全:使用数字签名验证模型完整性和真实性,只有通过验证签名的模型才能被认为合法和未篡改。采用安全的通信协议(如 TLS)确保模型传递过程中的数据传输加密,防止窃听和中间人攻击,确保端到端安全性。
    • 模型推理安全:引入安全沙箱和权限控制,将模型推理置于受控沙箱环境中,限制对系统资源的访问,防止恶意代码注入和攻击。采用容器化技术(如 Docker)将模型封装在单独容器中,提供隔离环境,增强模型运行安全性。同时,实施网络隔离策略,将模型推理服务部署在单独的网络环境中,减少未经授权的访问和网络攻击风险。
    • 模型微调安全:采用差分隐私等技术,向数据中添加一定噪声,使攻击者难以从数据中推断出敏感信息,保护微调数据隐私,提升模型安全性。通过反馈学习,让模型更好地理解和符合人类价值观和期望,不要产生不恰当或有害输出。
    • 私有化部署安全:建立私有化部署的权限控制和监控机制,保障数据在企业内部的隔离和安全性。
    • 模型演化与更新:引入安全审查流程,确保模型更新和演化过程中不引入漏洞或不安全元素。持续监控训练和评估数据的合规性与质量,及时发现数据漂移或分布变化,不要模型在新数据上生成内容的安全性下降。增强对演化过程中第三方组件的依赖性以及安全性的评估,不要引入未知漏洞等不安全元素。
    • 模型审计与跟踪:通过决策解释(使用可解释性工具揭示模型决策过程)、依赖关系揭示(利用可信的 BoM 技术揭示模型对上游数据、预训练模型等依赖关系)、定期评估准确性等指标、输入输出监测、模型参数和配置审查、安全漏洞saomiao、日志分析等步骤,确保大模型安全性。
    • 安全修复与更新:定期漏洞saomiao和安全评估,及时发现潜在漏洞。建立紧急修复机制,快速响应漏洞发现,防止威胁扩散。及时获取和应用最新安全补丁,保持模型及其依赖库的最新版本。制定有效的回滚策略,备份当前版本,防止修复引入新问题。透明沟通修复进展,持续监控修复效果,发现潜在威胁。
  1. 应用服务安全

    • 构建业务风控系统:分析监控用户行为,具备频率控制、人机识别、人机校验、身份验证、风险网络检测等安全组件,建立用户异常行为风险提示、警告、处置等分级管理能力,确保环节全覆盖,不要被不法分子滥用。
    • 建立内容安全防护与过滤体系
      • 内容安全审核:对用户提问进行内容安全审核,通过人工审核、过滤技术或其他方式干预模型输入内容,确保符合标准、规范和价值观,建立内置标准化红线问答题库和 Query 干预功能,拦截严重攻击性问题,提高生成内容质量和安全性。
      • 检索增强服务:针对时效性强或疑似谣言问题,构建检索增强服务,在可信赖领域内检索信息,为大模型提供准确实时安全信息,修正用户提问风险问题,利用自然语言处理技术进行语义分析,提高检索准确性和效率,为用户提供正向引导。
      • 输出内容安全过滤:对模型生成的文本内容进行检测和筛选,识别并过滤有害、不准确、不适当或不合规的回复内容,以及对个人信息、敏感数据的pingbi,结合高危词典进行安全过滤,通过语义改写将安全回复内容作为最终输出,确保输出环节安全合规。
      • 内容标识技术:在业务应用 UI 界面、生成内容增加明水印或暗水印等安全标识,如在显示区域下方或使用者输入信息区域下方持续显示提示文字,或在显示区域背景添加包含提示文字的显式水印标识,在图片视频画面内添加类似 AI 生成标识,防止大模型生成内容被滥用。
    • 优化模型决策安全性
      • 大模型微调安全策略:基于安全审核的指令数据对大模型进行微调,通过强化学习和持续学习技术提升大模型对安全回复内容的偏好程度,引导鼓励大模型生成高质量安全内容。
      • 组合式 AI 系统技术:有效结合垂直领域的判别式模型和生成式大模型的能力,整合不同模型优势,提高大模型决策的全面性和准确性,降低决策风险。
      • 攻击检测引擎:引入专门的攻击检测模型,对各种新型攻击进行实时监测和识别,如对抗性攻击、Prompt 注入攻击等,及时发现并防范潜在的安全威胁,保障模型决策的安全性。

四、业界实例

在工业界,为保障模型内生安全,不同企业和机构采取了多种措施,以下是一些具体的应用案例:

奇安信

  • 应用场景与需求:在工业企业的网络环境中,需对各类工业资产进行有效管理,监测工业网络安全风险,保护工业主机安全,防止外部攻击入侵影响工业模型正常运行,确保工业生产流程安全。
  • 保障措施
    • 工业安全态势感知与管理ping台(IMAS:以工业资产为核心,实现工业资产集中管理、日志集中管理与分析、工艺异常行为建模与分析、威胁统一分析与运营等功能。帮助工业企业集中可视化管理工业资产,全面持续监测工业网络安全风险和态势,为工业安全协同防护提供动态迭代演进依据,保障模型相关的工业流程安全。
    • 工业主机安全防护系统:采用白名单技术、关卡式病毒拦截、主机加固技术等多维度一体化防护技术,有效抵御病毒、木马、零日攻击等对工业主机的攻击与破坏行为,确保工业主机上运行的模型相关程序及数据安全。同时能够自动识别工业主机硬件基础信息,形成资产清单,便于管理和安全维护。

天融信

  • 应用场景与需求:在工业互联网环境下,工业设备互联互通,需确保网络通信安全,防止数据泄露、篡改,保障工业模型在数据传输、存储和运行过程中的安全。
  • 保障措施:多款工业安全产品通过IPv6 Ready Logo Phase - 2认证,如天融信工控安全隔离与信息交换系统(TOPIGAP)、天融信工控防火墙系统(TOPIFW)等。这些产品支持对IPv6流量的智能识别和精准分析潜在威胁,有效构筑抵御各类IPv6攻击的防线,并融合数据加密与身份验证功能,为数据传输提供保障,确保工业模型相关的数据在网络通信过程中的安全。

联通

  • 推出了人工智能内生安全一体化解决方案。该方案融合自主研发的 “评估检测” 与 “内生可信增强” 技术,提供多维度的评测服务,覆盖人工智能生成内容的安全性、模型算法的鲁棒性和可解释性等方面。其具体举措包括:在 “大模型生成内容安全评测” 方面,对多款主流预训练开源模型进行全面评测,并基于评测结果采取针对性的安全增强措施,提升增强后的大模型在验证集上的安全评分;为小模型提供全面且可靠的评估服务,注重模型的可解释性和鲁棒性,支持超过 40 种模型的测试,并集成了 50 多种可解释性和对抗攻击算法;还能为用户提供开箱即用的水印服务体验,支持图片、语音作为zai体的多种水印嵌入算法和对应的水印提取算法。

蚂蚁集团

  • 形成了一套消毒技术方案,初步实现每天 100 亿的风险初筛、精细化标注的能力。为解决大模型生成可控问题,从四个方面进行了初步探索:通过 sft、rlhf/rrhf、rlaif 等技术和高质量标注做人类对齐;图像方面做风险抑制,进行可控调试,让大模型生成的图像具备正向的价值观;大模型外挂千万级安全知识库生成和检索,生产有效率达到 60%;对疑难风险内容进行补充,提升模型的风险认知能力。这些技术方案集成形成了被称为 “蚁天鉴” 的大模型安全一体化解决方案,包含大模型安全检测ping台 “蚁鉴 2.0” 和大模型风险防御ping台 “天鉴” 两大产品。其中 “蚁鉴 2.0” 可通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,并实时、自动化检测计算大模型回答,“找茬” 其弱点和安全问题;“天鉴” 可帮助大模型挡住外界的恶意提问,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。(对应报告中的 “从训练数据源头消毒”“解决大模型生成可控问题” 以及 “大模型安全检测ping台” 和 “大模型风险防御ping台” 等内容)
例如,在训练数据安全保护措施方面,企业会注重数据合规获取。像联通在直接获取互联网公开数据时,遵循爬虫仅获取开放数据、技术非侵入性且基于正当目的的原则,同时建立违法不良数据源清单,并标记溯源数据来源等。而蚂蚁集团则提到在大模型研发过程中,需将数据 “消毒” 和 “加毒” 进行融合,因为完全没有负面数据可能使大模型成为 “傻白甜”,易掉入安全陷阱。
在算法模型安全保护措施上,蚂蚁集团利用 sft、rlhf/rrhf、rlaif 等技术进行人类对齐,外挂安全知识库并补充疑难风险内容等。例如通过 sft 技术用微调数据集提升大模型理解和生成能力,以解决多轮对话中上下文不一致的模型 “幻觉” 问题。
在系统ping台安全措施和业务应用安全措施方面,联通的方案为大模型业务提供端到端的内生安全防护,并开放安全评测服务。蚂蚁集团的 “蚁鉴 2.0” 和 “天鉴” 产品,一个用于检测 “找茬”,一个用于 “防治” 风险过滤。

阿里巴巴集团

  • 对应内容:2.1 数据合规获取、2.2 数据标注安全、2.3 数据集安全检测
  • 实施细节:阿里巴巴集团在训练数据的获取、标注和检测方面采取了一系列措施。例如,他们在数据采集时遵循合法合规的原则,确保数据来源的合法性,并建立数据源评估机制。在数据标注方面,阿里巴巴通过设立严格的标注标准和审核流程,确保数据标注的准确性和安全性。此外,他们还使用先进的数据安全技术,如数据加密和访问控制,来保护数据集的安全。

谷歌(Google)

  • 对应内容:3.1 模型内生安全评测、3.2 模型鲁棒性增强
  • 实施细节:谷歌在其大型语言模型中实施了模型鲁棒性测试,以确保模型在面对对抗性攻击时的稳定性。他们通过对抗性训练来增强模型的鲁棒性,例如,通过向训练数据中引入轻微扰动的样本,使模型能够识别并抵抗这些攻击。此外,谷歌还开发了模型安全评测框架,以定量评估模型在不同攻击场景下的表现。

微软(Microsoft)

  • 对应内容:4.1 系统安全加固保护
  • 实施细节:微软在其Azure云ping台上提供了一系列的安全加固措施,包括对机器学习框架的定期安全更新、对开发工具链的安全审计,以及对系统逻辑缺陷的持续监控和修复。这些措施有助于保护系统不受未授权访问和攻击。

百度

  • 对应内容:5.1 输入输出安全保护、5.2 生成信息标识
  • 实施细节:百度在其大模型应用中实施了输入输出内容的安全检测,以确保不生成或传播违法不良信息。他们还为大模型生成的内容添加了明显的标识,如在文本开头或结尾添加“由AI生成”的声明,以及在图像和视频内容中添加水印,以明确区分人工智能生成的内容和真实内容。

亚马逊(Amazon)

  • 对应内容:大模型赋能安全框架
  • 实施细节:亚马逊利用其大模型技术在网络安全领域提供智能威胁检测和响应服务。他们的大模型能够分析大量的网络流量数据,识别出异常行为和潜在的安全威胁,然后自动生成响应策略,帮助安全团队快速应对这些威胁。
0条评论
0 / 1000
ypx
7文章数
1粉丝数
ypx
7 文章 | 1 粉丝
原创

模型内生安全调研

2025-06-06 08:26:35
12
0
详细参考资料:
《人工智能内生安全白皮书2024》
《大模型安全研究报告2024》

一、内生安全概念

人工智能内生安全指的是人工智能系统自身和应用运行时存在的脆弱性,导致应用运行时无法达到预期目标。包含 AI 基础设施安全问题、数据安全与隐私问题、模型安全问题以及应用服务安全风险问题,影响系统的正常运行和可靠性。

二、内生安全面临的风险问题

  1. AI 基础设施安全

    • 基础设施硬件风险:面临物理攻击、侧信道攻击、故障注入攻击等,可能导致芯片内部敏感信息泄露。
    • 操作系统风险:存在安全漏洞、后门、弱口令等,易被黑客利用,破坏内核完整性,导致敏感信息泄露和业务停滞。
    • 容器风险:可能出现镜像篡改、启动异常和逃逸攻击等,影响 AI 业务正常运行。
    • AI ping台风险:面临 API 认证和授权、Web 漏洞攻击、资源隔离与调度等风险,可能导致数据丢失和业务停滞。
    • AI 框架风险:框架漏洞可被攻击者利用,传播恶意软件,影响 AI 业务和数据安全。
    • AI 基础设施承zai资产风险:高价值模型等资产易被非法窃取,造成商业机密丢失和版权利益损失。
  1. 数据安全

    • 传输截获风险:在进行 AI 模型非私有化的预训练、精调、推理服务时,数据需要在不同的主体或部门之间进行传输。这些数据通常包括各种敏感信息和隐私,如个人身份信息、金融数据等。在数据传输过程中,如果没有采取足够的安全措施,攻击者可能会截获这些数据,从而获取用户或组织的敏感信息。
    • 运营方窥探风险:运营方可能窥探或滥用微调与推理阶段使用的敏感数据。
    • 模型记忆风险:经过模型的训练和推理后,模型会形成记忆,因而对于部署到生产环境中的模型,其输出可能会暴露训练数据的一些信息。攻击者可以通过分析模型的输出,推断出训练数据的特征和分布,进而构建类似的数据集,甚至还原部分原始数据。
  1. 模型安全

    • 模型逆向工程风险:攻击者可通过逆向工程还原模型架构、权重和训练数据,导致知识产权盗窃、模型盗用、暴露安全漏洞等风险。
    • Prompt 攻击风险:在大模型推理阶段可能面临恶意 prompt 注入攻击的风险。攻击者通过特殊的 prompt 工程技术,与 LLM 的工具模块进行非法交互,从而实现非法调用 LLM 后台工具;或者迫使大模型脱离其内在安全机理,导致模型生成不适当的内容或造成敏感信息泄露和篡改等后果。具有代表性的攻击包括:角se扮演攻击、目标劫持攻击、反向诱导攻击和提示词泄露等。
    • 模型幻觉问题:包括事实性幻觉(生成错误事实内容)和忠实性幻觉(生成内容与指令或上下文偏差)。
    • 模型更新和演化风险:模型参数更新可能引入新漏洞和风险,需考虑版本控制等。
  1. 应用服务安全

    • 用户提问行为风险:包括 AIGC 盗爬(大模型生成的内容可能会被恶意爬虫大规模复制、传播,造成信息泄露和盗用。)、垃圾提问 / 重复提问(大模型应用可能会被进行大量的无效提问、垃圾提问,或者针对同一问题进行重复提问,从而对ping台造成压力和资源浪费,甚至诱导大模型生成不安全内容。)、大模型接口攻击 / 频率突破等(例如恶意用户通过对大模型应用 API发起大量请求,导致接口崩溃或服务中断。)。
    • 用户反馈行为风险:大模型应用在与用户进行对话时,可以收集用户对于大模型生成的每一条内容的反馈,攻击者通常会故意通过用户的反馈向模型中注入有毒数据,如投毒反馈、恶意反馈,从而干扰模型的正常学习和推理过程。攻击者通过这些手段来制造“噪音”或“污染”,使得模型无法准确理解和回答用户的问题或执行相关的任务。。
    • 用户提问内容风险:用户输入不安全信息可能导致模型生成不良输出,引发法律纠纷。
    • 大模型生成内容合规与滥用或恶意使用风险:涉及意识形态、违法犯罪、歧视、商业秘密 / 知识产权、虚假信息和误导性内容生成等方面的风险。
    • 大模型应用决策安全风险:包括模型误判、不可解释性、对抗性攻击、偏差与偏见等风险。

三、内生安全解决方案

  1. AI 基础设施安全

    • AI 基础设施自身安全
      • 硬件安全:物理攻击防护(对芯片进行特殊封装、增加pingbi层)、侧信道攻击防护(掩码技术、混淆技术)、故障注入攻击防护(逻辑冗余、时间冗余)、硬件可信根(安全启动、可信启动)。
      • OS 安全:具备威胁检测、可信计算、防护沙箱、内核完整性保护等能力。例如建立基于原生白名单和恶意文件检测引擎,提供动态持续监控与全盘saomiao两种模式实时监控系统状态,对多种文件深度识别,检测范围包括各类恶意程序。
      • 容器安全:实现容器镜像、启动、逃逸和集群安全检测。如基于日志、进程、文件、容器和系统调用等信息,从宿主机角度检测逃逸行为。
      • AI 框架安全:通过漏洞saomiao检测提升安全性,识别潜在漏洞以及非法访问行为。
      • AI ping台安全:保障 API、Web 安全,实现资源隔离与安全调度、身份认证与访问控制。如构建 API 全生命周期的威胁防护能力,在 API 调用过程中层层防护;Web 安全防护中不要直接对象引用,对不可信来源的直接对象引用执行访问控制检查。
    • AI 基础设施承zai资产安全:利用密码学、模型混淆等技术保护 AI 资产。如通过基于密码学、模型混淆、访问控制策略和硬件级的安全机密环境等技术手段,保护 AI 资产文件态和运行态安全,防止关键资产明文落盘、非法窃取、恶意访问等。
  1. 数据安全

    • AI 数据安全管理
      • 元数据管理:记录数据来源,确保使用行为合法、符合信息主体预期并尊重其权利,明确训练数据的训练业务场景,严禁使用为单一目的收集的数据用于训练其他目的的 AI 模型。
      • 重要数据资产识别:利用大模型的理解能力,实现针对训练数据资产的自动化、智能化的重要数据识别(隐私数据、企业机密等),解决数据量大、文本数据多、人工审核准确性与覆盖度难以保证等痛点,大幅度降低人力成本,并且不要重要数据资产进入模型训练而引发的数据泄露。
      • 访问控制管理:根据企业 AI 模型训练需求定义安全策略,提供不同级别的访问权限,以限制对训练数据库(表)、数据特征(列)、数据样本(行)级别的访问控制。对于具有敏感数据的训练数据库,使用单元格级别的安全控制策略保护敏感数据,严格限制访问训练数据库的权限。
      • 数据密态存储和流转:为确保重要数据在整个数据流转过程中的安全性,全程加密存储和传输,并将密钥托管到统一的密钥管理系统中。大模型运行ping台支持密文训练和推理能力,可使用多种加解密方案。
      • 日志审计:监控训练数据访问情况,记录训练数据访问行为,比如用户角se、尝试访问行为、访问时间等。定期审核访问日志,及时发现异常行为。
    • AI 数据安全增强
      • 数据投毒防御:在原数据进入数据库 / 数据湖前,对训练数据进行全面验证,如多个数据标注员共同验证数据标注的准确性;数据存储时加密并控制访问权限;定期监控训练数据是否存在异常,并进行数据安全审计以发现数据篡改,降低数据投毒风险。
      • 敏感数据识别:对训练数据、模型应用服务输出的内容进行敏感数据识别,根据企业业务需求制定过滤策略,使用大模型技术对业务中存在的个人身份信息、企业专有数据等敏感数据进行智能化识别,防止敏感数据泄漏。
      • 数据脱敏:针对已识别出的敏感数据,遵循相关法规要求进行严格管理,考虑 AI 模型训练性能、业务需求、数据安全等多方面因素,制定数据脱敏策略。如对问答日志信息进行自动化去标识化处理,对涉及用户隐私的输入信息进行脱敏处理。
  1. 模型安全

    • 模型训练安全:采用隔离环境,防止未授权访问,确保模型训练的隐私和安全性。引入训练数据的加密和隐私保护措施,防范敏感信息泄露风险,满足隐私标准。
    • 模型流转安全:使用数字签名验证模型完整性和真实性,只有通过验证签名的模型才能被认为合法和未篡改。采用安全的通信协议(如 TLS)确保模型传递过程中的数据传输加密,防止窃听和中间人攻击,确保端到端安全性。
    • 模型推理安全:引入安全沙箱和权限控制,将模型推理置于受控沙箱环境中,限制对系统资源的访问,防止恶意代码注入和攻击。采用容器化技术(如 Docker)将模型封装在单独容器中,提供隔离环境,增强模型运行安全性。同时,实施网络隔离策略,将模型推理服务部署在单独的网络环境中,减少未经授权的访问和网络攻击风险。
    • 模型微调安全:采用差分隐私等技术,向数据中添加一定噪声,使攻击者难以从数据中推断出敏感信息,保护微调数据隐私,提升模型安全性。通过反馈学习,让模型更好地理解和符合人类价值观和期望,不要产生不恰当或有害输出。
    • 私有化部署安全:建立私有化部署的权限控制和监控机制,保障数据在企业内部的隔离和安全性。
    • 模型演化与更新:引入安全审查流程,确保模型更新和演化过程中不引入漏洞或不安全元素。持续监控训练和评估数据的合规性与质量,及时发现数据漂移或分布变化,不要模型在新数据上生成内容的安全性下降。增强对演化过程中第三方组件的依赖性以及安全性的评估,不要引入未知漏洞等不安全元素。
    • 模型审计与跟踪:通过决策解释(使用可解释性工具揭示模型决策过程)、依赖关系揭示(利用可信的 BoM 技术揭示模型对上游数据、预训练模型等依赖关系)、定期评估准确性等指标、输入输出监测、模型参数和配置审查、安全漏洞saomiao、日志分析等步骤,确保大模型安全性。
    • 安全修复与更新:定期漏洞saomiao和安全评估,及时发现潜在漏洞。建立紧急修复机制,快速响应漏洞发现,防止威胁扩散。及时获取和应用最新安全补丁,保持模型及其依赖库的最新版本。制定有效的回滚策略,备份当前版本,防止修复引入新问题。透明沟通修复进展,持续监控修复效果,发现潜在威胁。
  1. 应用服务安全

    • 构建业务风控系统:分析监控用户行为,具备频率控制、人机识别、人机校验、身份验证、风险网络检测等安全组件,建立用户异常行为风险提示、警告、处置等分级管理能力,确保环节全覆盖,不要被不法分子滥用。
    • 建立内容安全防护与过滤体系
      • 内容安全审核:对用户提问进行内容安全审核,通过人工审核、过滤技术或其他方式干预模型输入内容,确保符合标准、规范和价值观,建立内置标准化红线问答题库和 Query 干预功能,拦截严重攻击性问题,提高生成内容质量和安全性。
      • 检索增强服务:针对时效性强或疑似谣言问题,构建检索增强服务,在可信赖领域内检索信息,为大模型提供准确实时安全信息,修正用户提问风险问题,利用自然语言处理技术进行语义分析,提高检索准确性和效率,为用户提供正向引导。
      • 输出内容安全过滤:对模型生成的文本内容进行检测和筛选,识别并过滤有害、不准确、不适当或不合规的回复内容,以及对个人信息、敏感数据的pingbi,结合高危词典进行安全过滤,通过语义改写将安全回复内容作为最终输出,确保输出环节安全合规。
      • 内容标识技术:在业务应用 UI 界面、生成内容增加明水印或暗水印等安全标识,如在显示区域下方或使用者输入信息区域下方持续显示提示文字,或在显示区域背景添加包含提示文字的显式水印标识,在图片视频画面内添加类似 AI 生成标识,防止大模型生成内容被滥用。
    • 优化模型决策安全性
      • 大模型微调安全策略:基于安全审核的指令数据对大模型进行微调,通过强化学习和持续学习技术提升大模型对安全回复内容的偏好程度,引导鼓励大模型生成高质量安全内容。
      • 组合式 AI 系统技术:有效结合垂直领域的判别式模型和生成式大模型的能力,整合不同模型优势,提高大模型决策的全面性和准确性,降低决策风险。
      • 攻击检测引擎:引入专门的攻击检测模型,对各种新型攻击进行实时监测和识别,如对抗性攻击、Prompt 注入攻击等,及时发现并防范潜在的安全威胁,保障模型决策的安全性。

四、业界实例

在工业界,为保障模型内生安全,不同企业和机构采取了多种措施,以下是一些具体的应用案例:

奇安信

  • 应用场景与需求:在工业企业的网络环境中,需对各类工业资产进行有效管理,监测工业网络安全风险,保护工业主机安全,防止外部攻击入侵影响工业模型正常运行,确保工业生产流程安全。
  • 保障措施
    • 工业安全态势感知与管理ping台(IMAS:以工业资产为核心,实现工业资产集中管理、日志集中管理与分析、工艺异常行为建模与分析、威胁统一分析与运营等功能。帮助工业企业集中可视化管理工业资产,全面持续监测工业网络安全风险和态势,为工业安全协同防护提供动态迭代演进依据,保障模型相关的工业流程安全。
    • 工业主机安全防护系统:采用白名单技术、关卡式病毒拦截、主机加固技术等多维度一体化防护技术,有效抵御病毒、木马、零日攻击等对工业主机的攻击与破坏行为,确保工业主机上运行的模型相关程序及数据安全。同时能够自动识别工业主机硬件基础信息,形成资产清单,便于管理和安全维护。

天融信

  • 应用场景与需求:在工业互联网环境下,工业设备互联互通,需确保网络通信安全,防止数据泄露、篡改,保障工业模型在数据传输、存储和运行过程中的安全。
  • 保障措施:多款工业安全产品通过IPv6 Ready Logo Phase - 2认证,如天融信工控安全隔离与信息交换系统(TOPIGAP)、天融信工控防火墙系统(TOPIFW)等。这些产品支持对IPv6流量的智能识别和精准分析潜在威胁,有效构筑抵御各类IPv6攻击的防线,并融合数据加密与身份验证功能,为数据传输提供保障,确保工业模型相关的数据在网络通信过程中的安全。

联通

  • 推出了人工智能内生安全一体化解决方案。该方案融合自主研发的 “评估检测” 与 “内生可信增强” 技术,提供多维度的评测服务,覆盖人工智能生成内容的安全性、模型算法的鲁棒性和可解释性等方面。其具体举措包括:在 “大模型生成内容安全评测” 方面,对多款主流预训练开源模型进行全面评测,并基于评测结果采取针对性的安全增强措施,提升增强后的大模型在验证集上的安全评分;为小模型提供全面且可靠的评估服务,注重模型的可解释性和鲁棒性,支持超过 40 种模型的测试,并集成了 50 多种可解释性和对抗攻击算法;还能为用户提供开箱即用的水印服务体验,支持图片、语音作为zai体的多种水印嵌入算法和对应的水印提取算法。

蚂蚁集团

  • 形成了一套消毒技术方案,初步实现每天 100 亿的风险初筛、精细化标注的能力。为解决大模型生成可控问题,从四个方面进行了初步探索:通过 sft、rlhf/rrhf、rlaif 等技术和高质量标注做人类对齐;图像方面做风险抑制,进行可控调试,让大模型生成的图像具备正向的价值观;大模型外挂千万级安全知识库生成和检索,生产有效率达到 60%;对疑难风险内容进行补充,提升模型的风险认知能力。这些技术方案集成形成了被称为 “蚁天鉴” 的大模型安全一体化解决方案,包含大模型安全检测ping台 “蚁鉴 2.0” 和大模型风险防御ping台 “天鉴” 两大产品。其中 “蚁鉴 2.0” 可通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,并实时、自动化检测计算大模型回答,“找茬” 其弱点和安全问题;“天鉴” 可帮助大模型挡住外界的恶意提问,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。(对应报告中的 “从训练数据源头消毒”“解决大模型生成可控问题” 以及 “大模型安全检测ping台” 和 “大模型风险防御ping台” 等内容)
例如,在训练数据安全保护措施方面,企业会注重数据合规获取。像联通在直接获取互联网公开数据时,遵循爬虫仅获取开放数据、技术非侵入性且基于正当目的的原则,同时建立违法不良数据源清单,并标记溯源数据来源等。而蚂蚁集团则提到在大模型研发过程中,需将数据 “消毒” 和 “加毒” 进行融合,因为完全没有负面数据可能使大模型成为 “傻白甜”,易掉入安全陷阱。
在算法模型安全保护措施上,蚂蚁集团利用 sft、rlhf/rrhf、rlaif 等技术进行人类对齐,外挂安全知识库并补充疑难风险内容等。例如通过 sft 技术用微调数据集提升大模型理解和生成能力,以解决多轮对话中上下文不一致的模型 “幻觉” 问题。
在系统ping台安全措施和业务应用安全措施方面,联通的方案为大模型业务提供端到端的内生安全防护,并开放安全评测服务。蚂蚁集团的 “蚁鉴 2.0” 和 “天鉴” 产品,一个用于检测 “找茬”,一个用于 “防治” 风险过滤。

阿里巴巴集团

  • 对应内容:2.1 数据合规获取、2.2 数据标注安全、2.3 数据集安全检测
  • 实施细节:阿里巴巴集团在训练数据的获取、标注和检测方面采取了一系列措施。例如,他们在数据采集时遵循合法合规的原则,确保数据来源的合法性,并建立数据源评估机制。在数据标注方面,阿里巴巴通过设立严格的标注标准和审核流程,确保数据标注的准确性和安全性。此外,他们还使用先进的数据安全技术,如数据加密和访问控制,来保护数据集的安全。

谷歌(Google)

  • 对应内容:3.1 模型内生安全评测、3.2 模型鲁棒性增强
  • 实施细节:谷歌在其大型语言模型中实施了模型鲁棒性测试,以确保模型在面对对抗性攻击时的稳定性。他们通过对抗性训练来增强模型的鲁棒性,例如,通过向训练数据中引入轻微扰动的样本,使模型能够识别并抵抗这些攻击。此外,谷歌还开发了模型安全评测框架,以定量评估模型在不同攻击场景下的表现。

微软(Microsoft)

  • 对应内容:4.1 系统安全加固保护
  • 实施细节:微软在其Azure云ping台上提供了一系列的安全加固措施,包括对机器学习框架的定期安全更新、对开发工具链的安全审计,以及对系统逻辑缺陷的持续监控和修复。这些措施有助于保护系统不受未授权访问和攻击。

百度

  • 对应内容:5.1 输入输出安全保护、5.2 生成信息标识
  • 实施细节:百度在其大模型应用中实施了输入输出内容的安全检测,以确保不生成或传播违法不良信息。他们还为大模型生成的内容添加了明显的标识,如在文本开头或结尾添加“由AI生成”的声明,以及在图像和视频内容中添加水印,以明确区分人工智能生成的内容和真实内容。

亚马逊(Amazon)

  • 对应内容:大模型赋能安全框架
  • 实施细节:亚马逊利用其大模型技术在网络安全领域提供智能威胁检测和响应服务。他们的大模型能够分析大量的网络流量数据,识别出异常行为和潜在的安全威胁,然后自动生成响应策略,帮助安全团队快速应对这些威胁。
文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0