长久以来,获取高质量训练数据一直是大模型训练团队无法回避的挑战。尽管数据也许已然存在,但其使用往往受到合约或其他条件的限制。即使不考虑这点,此类数据的清洗、验证和标准化也是极其昂贵的处理过程,否则无法确保在训练过程中产生一致的结果。正因为如此,合成数据成为众多大模型训练团队的关键策略。
换言之,合成数据已经从“锦上添花”转化为至关重要的基础设施。
据推测,2030年全球合成数据生成市场总规模将达到17.881亿美元,2024年至2030年间的年复合增长率则高达35.3%。
Gartner指出,除非企业能够获取即用型AI数据,否则其数据往往无法满足AI应用需求。合成数据管线则可通过AI算法生成用于大模型训练的海量数据,凭借完备的控制、审核与可追溯机制填补这一缺口。
大模型训练中的合成数据扩展策略
合成数据的扩展策略应当以终为始:先明确与下游任务相契合的目标,再据此设计合成数据生成方式。
检索型训练,要求查询与证据间保持一致性。
尽管二者存在一定交集,但所服务的目的有所不同。预训练可以容忍更广泛的变异性,而微调则需要更严格的模式、评分标准与输出约束。
构建合成语料库时的一大问题,就是会生成过多的“路径依赖”案例。路径依赖是指高度适配大模型的固有模式,导致模型在评估环境中表现优异,但在现实应用中面对杂乱无章的提示时却举步维艰。
对数据分布的控制应当在常见意图、现实变体与极端因素之间取得平衡,由此解决“路径依赖”的问题。领域感知提示词工程带来了一种有目的控制数据分布的方法,其中分类法与受控词汇表尽可能减少了术语漂移。为了进一步将合成文本与领域现实相锚定,团队可以使用结构化生成模式,从而匹配高合规环境的需求。
自动化管线极易发生漂移,而自动生成器则倾向于重复固定模式。自动化检查无法捕捉到细微差别,而看似合理的样本则可能导致模型训练出错误行为。因此,必须采用“人机协同”验证来防止漂移,并确保管线的整体一致性。
然而,通过战略性采样可以有效实施“人机协同”验证。具体而言,专家可以重点验证管线中风险最高的环节和新模板,以抽查方式及早发现漂移,再依靠自动反馈循环来纠正多次出现的错误。在选择质量指标时,则应优先挑选与语义准确性、模式保真度及任务合规性相关度最高的选项。
这也是随数据量增加,维持合成数据良好质量与一致性的有效方法。
如果生成的合成数据过度同质化,则可能削弱用该合成数据训练而成的模型的泛化能力。
当模型使用单一风格合成数据进行训练时,其学习的实际是生成器的风格,无法覆盖用户多样性。我们可通过以下刻意设计的方法来创造语言及语义多样性:
多样性的意义在于拓展模型的适用范围,而非引入不必要的噪声。
极端案例与故障场景在真实世界的语料库中较少体现,但又恰恰是引发不稳定行为的根源。你可以通过设计合成数据以模拟极端案例和故障场景,借此按需测试模型能否处理此类行为。具体包括:
合成数据的生成,对于增强模型在长尾场景中的稳健性尤其重要。这是因为长尾场景中的故障可能导致信任流失、支持成本增长,甚至有损商业收入。
通过加权聚合方法将合成数据与真实世界数据进行混合,以填补覆盖范围的空白,识别合成数据中所体现的自然语言模式的基本特征,并建立一种方法来确定每个层级中合成数据与真实世界数据的比例。
加权聚合使我们能够控制预训练过程中数据内的重复程度,因此有助于防止数据过拟合;但这也要求在微调阶段应用额外的过滤和模式检查。
虽然偏好学习和基于人类反馈的强化学习(RLHF)都会用到合成数据对,但偏好学习更多依赖于人类判断。教材式混合数据集通常优于随机采样数据集,因为它能控制特定任务内的难度级别,并防止突发性或不可预见的转变。
随着数据量增长,解释何时、为何以及修改了什么内容的能力将至关重要。数据治理为此提供了实现途径。应当创建版本化数据集和切片,同时认真记录生成参数和模板。明确生成器模型名称、修订历史及所应用的过滤器。
建立稳健的可追溯性将确保审计工作顺利进行,保障回归问题可调试,并最终使数据管线具备可重复性。若未建立数据治理,合成数据的扩展将仅仅是缺乏责任归属的一次性运行。
内容自动化质量指标对于实现人工审核流程的可扩展应用至关重要。自动化质量指标应包括基于规则的架构和格式评估,以及基于模型的指令遵循性评估和语义噪声评估。
应纳入重复和近重复检测以消除冗余,同时应持续进行过滤。过滤之所以至关重要,是因为合成数据生成过程中引入的幻觉和细微偏差会导致训练过程及其相关评估的持续退化。
因此,持续过滤有助于维持较高的信噪比,并防止训练过程及其相关评估可靠性的下降。
尽管许多管线倾向于英语,但本地化比翻译更为重要,且可能限制产品扩展能力,并在多语言环境中导致性能下降。合成数据显然有助于拓展资源匮乏的语言。
具体而言,领域术语必须准确,语气必须符合当地标准,语境必须显得自然。在这些情况下,专家的审核至关重要。尽管流畅但暗含错误的文本会以难以察觉的方式损害可信度并扭曲下游评估,而专家审核将最大限度地降低这些问题发生的风险。
就耐久性而言,闭环系统是合成数据管线的最佳形式。即从评估和生产信号中推导出误差,据此生成有针对性的合成修正数据,再进行重新训练与重新测试。
通过这种方式,我们对真实世界数据的依赖性将有所减少;而随着模型因更新而行为变化,模型开发能力也将得到提升。此外,闭环系统还能在漂移现象影响数百万个合成样本之前就将其扼杀在萌芽状态。
关于“合成数据集工具”,大多数团队须采用混合方案:包括提示词编排、数据集版本控制和评估框架,以及参考文献中描述的基于提示词的合成、知识蒸馏和自我指导模式等生成方法。由于涉及多个复杂环节,加之前面提到的十项策略要求,导致企业往往只能借助合作伙伴的力量方可实现。
合成数据正迅速从大模型辅助技术,转变为团队在长期开发、管理和持续改进模型过程中的核心要素。若团队能基于明确目标、受控分布、人工参与验证,以及持续的自动过滤和可追溯性,构建并维护起设计精良的合成数据管道,便能充分发挥合成数据的价值。
在合成数据正式成为基础设施组成部分之后,我们才有可能在现实压力之下实现更安全的规模扩展、快速迭代以及训练数据的可靠性保障。