searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

基于大模型的内容审核新范式

2024-05-21 09:44:37
348
0

1.  背景

互联网的飞速发展使得信息传播变得更加快速和广泛,同时也带来了许多挑战,如虚假信息、恶意攻击、不良言论等。为了维护网络秩序和保护用户权益,需要对网络内容进行审核和管理。此外,一些企业或机构也需要对自身发布的内容进行审核,以确保其品牌形象和言论的正确性。因此,文本内容审核成为了一个重要的领域,需要不断改进和完善审核技术和方法,以应对不断变化的需求和市场环境。

2.  技术方案

● 基于规则的审核:这是最传统的方法,通过预先定义的一组关键词、短语和规则来检测违规内容。这种方法通常用于检测明显的违规内容,如色情、暴力或违禁品名词。

● 基于机器学习的审核:这种方法通过训练机器学习模型来识别和分类文本中的不当内容。模型可以识别模式和趋势,从而识别出可能的违规内容。这种方法可以自动适应新出现的违规模式,但需要大量的训练数据和持续的模型更新。

● 基于深度学习的自然语言处理(NLP):深度学习模型,如卷积神经网络(CNN)和递归神经网络(RNN),可以用于理解文本的深层含义和上下文。这些模型可以识别复杂的语言特征,从而更准确地检测和分类文本内容。

● 文本分析和技术,如情感分析、实体识别和关键词提取,可以帮助审核人员快速识别文本中的关键信息。

● 人工审核:尽管自动化审核技术在不断发展,但人工审核仍然是一个重要的环节。特别是在处理复杂、模糊或模棱两可的情况时,人工审核可以提供最后的判断和决策

3.  基于大模型内容审核范式

BERT作为NLP算法常用模型文本的内容审核采用此类模型进行训练获取语义信息结果映射相应标签该方法简便快捷具有场景适用此类模型数据需求严重需要充足数据才能保证模型准确率很多场景收集足量数据是一个巨大挑站

当前大模型发展迅速使用大模型进行提示工程成为分类任务新方法借助大模型潜在能力prompt提供分类类别特征示例使得大模型完成分类任务

内容审核方面完全依靠大模型原始能力仍无法满足准确率要求Meta提出一种基于llama进行内容风控方法,命名为llama-guard,通过设计prompt只需要少量风险数据即可完成风险分类模型微调

4.  微调指令数据集格式

llama-guard提供一套新的微调指令该指令迁移其他中文大模型进行中文场景下其他违规内容审核

 

根据下面指定安全政策类型检查用户输入是否包含不安全内容

<违规文本类型/start>

类型1

-可以

-不可以

类型2

......

<违规文本类型/end>

<待审核文本>

xxxxxxxxxx

<待审核文本>

为上述用户输入提供安全评估

-第一行必须是安全违规

-如果违规第二行必须指出违规类别

5.  训练细节

Llama Guard基于Llama2-7b模型构建,旨在提升用户友好性。训练过程中,使用单台机器上的8个A100 80GB GPU,batch size为2,序列长度为4096,模型并行度为1。总共进行了500步训练,相当于一个epoch。在数据增强方面,当只涉及到完整分类法中的部分分类时,安全评估仅考虑这些分类。第一种方法是,如果当前示例不违反某些分类,则从模型提示中随机丢弃一些分类,以减少类别并生成新的数据。第二种方法是,从输入提示中删除所有违反的分类,并将该示例标记为“安全”。在训练示例之间随机打乱分类索引(同时相应修改所需输出),以防止模型记忆输入格式。

上述两种数据打乱方法有效提高模型表现能力模型使用1.4w数据相较于传统模型需要数据量极大缩减该模型实现了风险数据6分类训练数据标注准确度要求较高并且越广泛覆盖风险内容能够更有效提高模型表现

0条评论
0 / 1000
吕****铭
2文章数
0粉丝数
吕****铭
2 文章 | 0 粉丝
吕****铭
2文章数
0粉丝数
吕****铭
2 文章 | 0 粉丝
原创

基于大模型的内容审核新范式

2024-05-21 09:44:37
348
0

1.  背景

互联网的飞速发展使得信息传播变得更加快速和广泛,同时也带来了许多挑战,如虚假信息、恶意攻击、不良言论等。为了维护网络秩序和保护用户权益,需要对网络内容进行审核和管理。此外,一些企业或机构也需要对自身发布的内容进行审核,以确保其品牌形象和言论的正确性。因此,文本内容审核成为了一个重要的领域,需要不断改进和完善审核技术和方法,以应对不断变化的需求和市场环境。

2.  技术方案

● 基于规则的审核:这是最传统的方法,通过预先定义的一组关键词、短语和规则来检测违规内容。这种方法通常用于检测明显的违规内容,如色情、暴力或违禁品名词。

● 基于机器学习的审核:这种方法通过训练机器学习模型来识别和分类文本中的不当内容。模型可以识别模式和趋势,从而识别出可能的违规内容。这种方法可以自动适应新出现的违规模式,但需要大量的训练数据和持续的模型更新。

● 基于深度学习的自然语言处理(NLP):深度学习模型,如卷积神经网络(CNN)和递归神经网络(RNN),可以用于理解文本的深层含义和上下文。这些模型可以识别复杂的语言特征,从而更准确地检测和分类文本内容。

● 文本分析和技术,如情感分析、实体识别和关键词提取,可以帮助审核人员快速识别文本中的关键信息。

● 人工审核:尽管自动化审核技术在不断发展,但人工审核仍然是一个重要的环节。特别是在处理复杂、模糊或模棱两可的情况时,人工审核可以提供最后的判断和决策

3.  基于大模型内容审核范式

BERT作为NLP算法常用模型文本的内容审核采用此类模型进行训练获取语义信息结果映射相应标签该方法简便快捷具有场景适用此类模型数据需求严重需要充足数据才能保证模型准确率很多场景收集足量数据是一个巨大挑站

当前大模型发展迅速使用大模型进行提示工程成为分类任务新方法借助大模型潜在能力prompt提供分类类别特征示例使得大模型完成分类任务

内容审核方面完全依靠大模型原始能力仍无法满足准确率要求Meta提出一种基于llama进行内容风控方法,命名为llama-guard,通过设计prompt只需要少量风险数据即可完成风险分类模型微调

4.  微调指令数据集格式

llama-guard提供一套新的微调指令该指令迁移其他中文大模型进行中文场景下其他违规内容审核

 

根据下面指定安全政策类型检查用户输入是否包含不安全内容

<违规文本类型/start>

类型1

-可以

-不可以

类型2

......

<违规文本类型/end>

<待审核文本>

xxxxxxxxxx

<待审核文本>

为上述用户输入提供安全评估

-第一行必须是安全违规

-如果违规第二行必须指出违规类别

5.  训练细节

Llama Guard基于Llama2-7b模型构建,旨在提升用户友好性。训练过程中,使用单台机器上的8个A100 80GB GPU,batch size为2,序列长度为4096,模型并行度为1。总共进行了500步训练,相当于一个epoch。在数据增强方面,当只涉及到完整分类法中的部分分类时,安全评估仅考虑这些分类。第一种方法是,如果当前示例不违反某些分类,则从模型提示中随机丢弃一些分类,以减少类别并生成新的数据。第二种方法是,从输入提示中删除所有违反的分类,并将该示例标记为“安全”。在训练示例之间随机打乱分类索引(同时相应修改所需输出),以防止模型记忆输入格式。

上述两种数据打乱方法有效提高模型表现能力模型使用1.4w数据相较于传统模型需要数据量极大缩减该模型实现了风险数据6分类训练数据标注准确度要求较高并且越广泛覆盖风险内容能够更有效提高模型表现

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0