关键词:
最低差异度序列
抽样方法
整群抽样
Bootstrap方法
深度学习模型训练
深度森林
混合模型
摘要:
随着机器学习模型规模增大,许多计算问题越来越明显。更大的模型意味着需要更多的计算资源和存储资源以及更长的训练时间,从而导致碳排放的增加。另外,随着嵌入式设备的广泛应用,如果机器学习模型在嵌入式设备上过于庞大,或保持长时间运行,则嵌入式设备高功耗会导致设备过热,增加能源的需求,进而导致更多的二氧化碳排放和全球变暖等环境问题。因此在开发机器学习模型及产品时,我们应该努力减少计算量,并采用轻量化设计,以减少对环境的负面影响,同时提高模型运行的可持续性和长期价值。本论文响应近两年来学术界关于加强对机器学习环境影响研究方向的号召。我们选择的研究方向是改变模型训练时的数据构成。我们希望通过提出新颖的抽样方法,选择有代表性的训练数据,减少抽样误差对模型训练的影响,从而提升模型训练的效率。不少研究人员呼吁机器学习模型的训练不能一味追求大数据,而是要选择高质量、有代表性的数据。研究人员应该精心设计数据缩放、抽样和选择策略,提高机器学习模型的训练效率,从而减少整个过程的环境足迹。相关研究证明数据抽样的好坏直接影响机器学习模型训练时间,也就直接影响模型的碳足迹。这是因为目前主流机器学习和深度学习模型训练时采用简单随机抽样方法。这种方法抽样误差比较大,用“计算暴力”的方式来掩盖模型性能的缺陷,从而导致大量计算资源的浪费。部分研究人员提出构建“核心子集”的方法,即从大型数据集中构建一个数据量相对较少的“核心子集”用于模型训练。不过多个实验验证目前此类方法的研究尚未成熟。因此,我们需要在前人研究的基础上,继续寻找新的抽样方法设计,改善抽样质量,提升机器学习模型性能和训练效率。方开泰教授和王元院士开创了将数论方法应用到统计技术中去的技术路线。本论文效仿他们的方法,在解析数论中的“低差异度序列”理论基础上,提出最低差异度整群抽样方法、最低差异度整群Bootstrap方法和最低差异度整群双重子Bootstrap方法,并且将这些方法应用在深度学习模型训练、随机森林、深度森林、轻量化混合模型设计、嵌入式设备部署等方面。首先,本论文利用最低差异度序列的均匀分布和快速收敛的性质构建抽样框架(Sampling Frame),并使用整群抽样的方式将一个数据集分成多个小群(Cluster)。我们使用方差分析公式(ANOVA),理论上可以证明:当抽样框架的组内相关系数为负的时候,整群抽样的精度优于简单随机抽样和分层抽样。也就是说,每个小群内部的方差大于群与群之间的方差。因此每个小群很好地代表了整个数据集。实验2和3验证了在群大小相等以及不相等时,最低差异度整群抽样方法的估计量标准误差分别比简单随机抽样方法平均低61.46%、62.33%。实验4验证了在高维数据集上,最低差异度整群抽样方法优于分层抽样,估计量标准误差比分层抽样方法低37.96%。实验5验证了最低差异度整群抽样方法可以降低简单随机抽样带来的抽样误差,使得机器学习模型预测错误率减少了 36.95%。此外,本论文在传统重采样的基础上,提出最低差异度Bootstrap方法和最低差异度整群双重子Bootstrap方法。实验6验证了我们提出的最低差异度Bootstrap方法均值估计量的均方误差MSE平均比传统Bootstrap方法小73.71%。实验7验证了与传统Bootstrap、BDCB和SDB相比,最低差异度整群双重子Bootstrap方法所估计的机器学习模型系数误差更小,且收敛速度更快。30个公开数据集的结果均表明,上述两种新方法的优势在子样本取样数量很小时更明显,更能节省计算时间和计算资源。然后,本论文将上述提出的最低差异度整群抽样方法与深度学习模型训练方法结合。我们将深度学习模型训练中的每个批次(Batch)看作一个“群”(Clus-ter)。也就是说,我们可以通过最低差异度整群抽样方法将一个数据集分成若干个批次。由于最低差异度整群抽样方法可以保证每个群(也就是每个Batch)之间的样本单元较为相似,因此深度学习模型训练过程将会更加有效,可以减少训练次数并防止出现过拟合问题。实验8结果表明,在表格型数据集上,使用新方法的深度学习模型训练收敛速度较使用传统办法的速度提升了 40%左右。实验9结果表明,在图像数据集上,使用新方法的深度学习模型训练收敛速度较使用传统办法的速度提升了 83%左右。两个实验均印证了基于最低差异度整群抽样方法的深度学习模型训练方法可以使得每次训练的批次样本更接近总体,从而模型可以使用更少的训练迭代轮数,更快地从训练数据中“学习”到有用的信息,达到加速训练过程的效果。再次,本论文将最低差异度Bootstrap方法与传统随机森林、深度森林结合,提出最低差异度整群森林及最低差异度整群深度森林算法。实验10、11、12和13共使用了 35个数据集。结果表明最低差异度整群森林算法的准确率比传统随机森