关键词:
不均衡数据
数据生成
生成对抗网络
链式推理
大语言模型
摘要:
在现实世界中,不均衡数据广泛存在,例如,罕见疾病在健康记录中出现频率较低,使得早期诊断更加困难;在工业领域中,故障设备的数据远少于正常数据,导致模型在检测异常时面临较大挑战;在软件系统中,缺陷案例通常较少,因此在缺陷定位与风险评估方面难度较高。此类不均衡数据问题使得机器学习模型在训练时易产生偏差,尤其在少数类数据匮乏时,传统算法常面临类别不均衡困境,导致模型对少数类识别能力欠佳、泛化性能下降。因此,不均衡学习一直是机器学习领域的研究焦点,特别是随着近年来深度学习和大模型技术的兴起,学者们提出了一系列更先进的少数类数据生成及不均衡分类算法。
然而,现有技术在生成少数类数据时,较少考虑属性间天然存在的函数依赖关系,致使生成的数据难以完全契合真实数据的分布,限制了分类模型性能的提升。有鉴于此,本文着重研究考虑属性间函数依赖关系的少数类样本生成及不均衡分类技术。在实现路径上,分别探究基于生成对抗网络(GAN)和大语言模型的少数类样本生成技术。
1、针对GAN难以精准反映数据属性间函数关系、易引入错误标签信息,且无法充分挖掘生成样本价值以优化训练流程的问题,本文在课题组前期工作基础上,提出一种兼顾属性间函数依赖关系的数据生成方法(Quality-Aware Self-Training on Differentiable Synthesis of Rare Relational Data with attribute dependencies,QAST*)。该方法通过组建由多个预训练浅层分类器构成的分类器委员会对伪标签进行校准,提高标签准确性;设计关系“捕捉-过滤”模块,利用关系捕获器获取真实样本属性间的函数相关性,并经关系过滤器控制生成特征与样本的质量;随着训练推进,生成样本质量趋于稳定,将少数类生成样本与真实样本混合,再训练分类器委员会以提升其分类性能;最终将高置信度的带伪标签生成样本作为增强样本输入语义分类网络训练,优化生成数据质量,构建更强大的处理不均衡数据的语义分类器。在15个领域的基准数据集上进行系统实验表明,较最佳对手方法,本方法的准确率提升0.23%、Macro-F1提升4.12%、G-mean提升3.52%。
2、针对传统大模型在数据生成过程中面临的生成缺乏约束、数据属性关联分析浅薄、难以有效运用领域知识以及生成结果可解释性差等问题,本文提出基于动态引导机制的大模型数据生成算法(Effective Relational Data Generators with Dynamic Guidance Mechanism,RDDG)。先构建基于样本误差方差的核心集选择算法筛选训练数据核心集,与含数据集及属性信息的初始提示词一同输入大模型分析属性关系;再将分析结果送回大模型整理得到数据生成约束规则;最后结合训练数据与约束规则分批输入大模型,生成高质量新数据。该方法充分发挥大模型推理及链式推理优势,扩充训练集,优化模型训练效果。在4个不同领域真实数据集和4个人工合成数据集实验中,RDDG相较于最佳竞争对手,在准确率、Macro-F1、敏感性方面平均分别提升约1.7%、1%、2.4%。
为进一步推动研究成果落地,将QAST*与RDDG这两个独立的生成模型应用于实际场景中,通过集成QAST*和RDDG所涉及的算法来实现数据预处理、生成数据、数据可视化分析等功能模块,本文构建了一套少数类样本生成系统。
综上所述,针对GAN存在难以精准反映函数关系、易引入错误标签和无法充分利用生成样本优化训练流程的问题,提出了QAST*方法;针对传统大模型在数据生成过程中面临的缺乏约束、数据属性关联分析浅薄、难以有效运用领域知识以及生成结果可解释性差的问题,提出了RDDG方法。在多个基准数据集上,证明了其优势。在此基础上构建的少数类样本生成系统,整合了QAST*与RDDG的能力,为解决现实场景中的数据难题提供了有力的工具。