关键词:
高维函数型数据
因子模型
函数主成分分析
空间相关性
高维函数标量混合协变量
摘要:
随着科学技术的发展,在医学、经济、交通及环境科学等领域收集到大量的函数型数据。与传统的标量数据不同,函数型数据是随着时间或空间连续变化产生的观测数据。由于函数型数据的无穷维属性、不同观测点上测量数据的强相关性及观测点的不平衡性,传统的多元统计方法无法直接处理函数型数据,引发函数型数据分析(Functional Data Analysis,FDA)这一分支的发展。函数型数据的无穷维属性使得降维成为FDA的关键步骤之一,函数主成分分析(Functional Principal Component Analysis,FPCA)利用函数型数据内在相关性,给出函数型数据的低维表达,是最常用且高效的降维方法。
数据存储及计算手段的进步使得可以收集到大量函数型变量,产生高维函数型数据。高维函数型数据除函数内部的无穷维属性,变量的个数也发散到无穷。有效地利用函数内部及高维函数变量间的相关性降维并提取特征是分析该类数据的主要挑战。为了同时利用高维函数型数据变量间及内在的相关性,本文提出因子辅助的FPCA。具体地,首先引入因子过程来刻画高维函数变量间的相关性,然后对潜在因子过程使用u FPCA提取函数型数据内在的相关关系。因此同时考虑了函数型数据变量间及内在的相关关系。通过改写模型,本文提出了具有显式表达的估计方法,避免了复杂的迭代计算及初始值设置上的挑战。在理论上,证明了所提出模型的可识别性、相合性以及因子载荷的渐近正态性。将提出的方法应用于分析阿尔兹海默症ADNI数据,与现有方法相比,基于本文方法提取的特征对大脑各区域(Region of Interest,ROI)的容量密度曲线有更高的样本外预测精度。进一步,以提取的特征为协变量的回归模型,可以识别出41个与认知功能相关的ROI,其中23个ROI对认知功能的影响已被文献证实,其余18个值得深入研究。
在实际应用中,很多高维函数型数据还具有复杂的空间属性。由于空间关系的复杂性,高维函数型数据可能会同时呈现空间相关性及空间跳跃性。为考虑高维函数型数据的复杂空间关系,本文将载荷矩阵进一步分解为:与空间坐标相关的光滑函数及块状结构的常数矩阵,用于自适应地识别空间相关性及空间跳跃性。本文首先给出了有显式表达且相合的初始值,然后基于该初始值迭代更新每一个结构化或非结构化矩阵。理论上,证明了所提出模型的可识别性,算法的收敛性及估计的相合性。将提出的方法进一步用于分析ADNI数据,结果显示新方法进一步提升了对大脑容积曲线的预测精度,显著高于已知的分析高维函数型数据的方法。除此之外,相比于其他处理高维函数型协变量回归模型,以新方法提取到的特征为协变量的回归模型达到了对认知功能最高的预测精度。利用提取到的特征,确定了36个对认知退化的有影响的ROI,识别了脑部各ROI的块状结构,揭示了左右脑对认知功能影响机制的差异。
以高维函数型数据为协变量的回归分析是函数型数据的另一个重要问题。类似于高维标量数据的回归分析,目前高维函数型数据的回归分析也基本基于稀疏性假设。但稀疏性方法限制重要变量的个数,并且变量间不能有太强的相关性。但对于高维数据来说,复杂的相关性很难避免。此外,实际问题中,除高维函数型数据外,还同时可以观察到高维的标量数据。由于来自同一个体,这些数据间存在不可避免的相关性。如何将高维函数型数据与标量数据有效整合并捕捉它们之间的交互作用是建模关键。为此,本文首先使用无监督方法从两类协变量中分别提取充分特征,再提出有强逼近能力的加性指标模型作为框架拟合响应变量与特征的关系。进一步,引入系数矩阵提取与响应变量有关的特征,通过在系数矩阵上施加低秩结构组织函数型协变量与标量协变量间的相关性;施加稀疏结构,筛选与感兴趣结果有关的特征,提高模型的可解释性。提出判罚的Sieve似然损失函数,给出有效、灵活和稳健的估计。理论上,证明了估计的相合性和选择相合性,以及渐近正态性。将所提出方法应用于分析低密度脂蛋白(Low-Density Lipoprotein,LDL)胆固醇的影响因素,显示本文所提出的方法的预测精度显著高于其他方法,并识别出影响成人LDL水平的遗传变异位点和生长发育过程中的各种函数型(或纵向)观察指标。特别地,本文揭示了各种身体指标对LDL水平的影响随年龄变化的模式。除此之外,基于ALSPAC数据分析成人身体质量指数(Body Mass Index,BMI),结果显示与其它方法相比,所提出的方法有最高的预测精度,并识别了影响成人BMI的重要指标。