模型精调功能介绍 数据集配置 针对不同场景下,以下是数据量级的建议: 简单文本分类任务:对于基础的分类任务,如判断文本情感倾向(积极、消极、中性)或对新闻文章进行简单类别划分(体育、科技、娱乐等),若用户使用较小规模模型(如 7B及以下),通常5k20k条的数据量即可取得不错效果;若使用更大参数模型(如30B及以上),由于模型学习能力更强,对数据量要求相对降低,2k10k条也可能实现较好微调。但数据量的大小也与分类数以及任务难易度强相关,类别较多/任务较难的场景可能需要20k条以上的数据,且要做到类别均衡。 信息抽取任务:像从文本中抽取人名、地名、组织机构名等实体,或抽取事件的时间、地点、参与者等关键信息这类任务,任务难易度更大,因此对数据量需求相对较高。若用户使用13B及以下模型时,建议有30k80k的数据量;若使用30B及以上模型时,20k60k的数据量较为合适。这是因为信息抽取任务复杂,模型需学习多种实体和关系模式,足够数据量才能让模型有效捕捉这些模式。例如,在医疗领域的实体抽取微调中,50k条的高质量医疗文本数据,能使13B模型的F1值达到75%左右。 生成任务(如文本续写、文案生成):生成任务对模型创造力和语言理解能力要求高,数据量需求更大。对于7B及以下的模型,一般需要100k300k条以上数据;而13B30B的模型,50k 200k条数据较为适宜;30B以上模型,30k150k数据可能满足需求。数据不仅要量大,还应多样化,涵盖不同风格、主题和语境文本。如在小说续写微调中,200k条包含各种题材小说片段的数据,可让7B模型生成更连贯、富有想象力的续写内容。 复杂问答任务:如开放域问答、专业领域深度问答、领域内长思考链生成问答,数据量要求与生成任务相近甚至更高。7B的模型可能需要50k150k条数据;13B30B的模型,40k100k条数据;30B及以上的模型,则需要50k80k数据。这类任务需模型理解复杂问题语义,检索知识并生成准确回答,大量的数据帮助模型学习各类问题模式和答案逻辑。但是如果数据中带有思考推理过程,也即cot数据集,则各类模型所需的数据量可以相对应减少50%80%。在医疗领域的带思考过程的问答微调中,10k数量的含各类疾病的治疗方式的数据,便能让14B的模型在开源医疗问题测评集上提点。 需注意,以上数据量仅为经验参考范围,实际微调中最佳数据量受数据质量、模型架构、任务复杂度及训练方法等多种因素影响。例如,若数据质量极高且与任务高度相关,可能用较少数据量就能取得好效果。在微调前,可通过小规模实验评估不同数据量对模型性能影响,确定适合特定任务和模型的最优数据量。
来自: