大模型安全卫士
模型输入输出内容违规
场景特点:使用者输入违规内容(如违法犯罪、暴力色情等),诱导模型生成不相关或非法内容,造成不良影响。
解决方案:内置大模型内容安全引擎,在输入阶段评估提示词,防止生成非法结果;在输出阶段检测违规内容,及时阻断并进行事后审计。支持模型接口代理方式实时检测与阻断,通过三道过滤防线保障内容安全。
敏感数据安全脱敏
场景特点:在问答结果输出阶段,应用可能带出个人简历、薪资情况等敏感信息,导致泄露。
解决方案:在数据输入阶段介入脱密信息处理,使进入RAG 语料库的资料均为脱敏后材料,基于大模型的智能脱敏在保护敏感信息的同时保留数据可用性。
大模型安全测评
面向部署于息壤智算云平台并通过互联网提供服务的大模型系统,提供专业的安全评估服务。通过云端检测平台对暴露在公网的大模型进行全方位的安全检测与分析。该方案的制定基于以下核心考量:
业务必要性:大模型服务需通过互联网对外开放接口
安全挑战:面临来自互联网侧的黑客攻击与安全威胁
防护体系:通过构建管理规范、技术防护和运营保障三位一体的安全防御机制,实现风险的有效管控与消减
大模型安全护栏
智能客服场景
企业部署 AI 客服机器人时,用户可能发送包含提示注入攻击或违规内容的请求,试图操控机器人输出不当内容。通过接入大模型安全护栏,可在输入侧拦截此类风险,同时在输出侧确保客服回复内容合规,避免产生品牌声誉与法律风险。
内容创作平台
AI 写作、绘图平台需防止用户诱导生成违规图文内容。护栏的文本与图片双重检测,可实时过滤违规生成物,保障平台内容合规,规避平台主体责任风险。
政务与金融大模型应用
政务、金融类应用对信息安全要求极高,一旦被攻击者通过提示注入操控模型,可能导致敏感信息泄露或违规建议输出。护栏可有效防御提示注入攻击,并过滤涉政、涉密等敏感输出,满足严苛的行业合规要求。
教育类大模型产品
面向学生群体的教育产品,需严格过滤色情、暴力等不适宜内容。护栏可针对图片和文本进行双重审核,全面守护教育场景下的内容安全。
企业内部知识库问答
企业内部部署的大模型知识库助手,需防止员工输入攻击性 Prompt 越权获取敏感数据,同时确保助手输出内容不触碰商业合规红线。护栏可在输入输出两侧为内部系统提供安全保障。