关键词:
二项分布
双抽样
极小覆盖概率
区间长度
h-函数方法
摘要:
在很多总体分布中除兴趣参数外经常还存在冗余参数.对这类情况兴趣参数的区间估计问题已有大量研究.现有的区间包括渐近区间和精确区间,这些区间存在一定不足,其中渐近区间不能达到给定的置信水平,精确区间大部分的区间长度是保守的.通常人们用区间长度衡量区间的精度,用极小覆盖概率(infimum coverage probability,ICP)衡量区间的可靠性.所谓最优置信区间是指ICP能达到给定的置信水平且区间长度最短.是否能改进渐近区间使得置信系数达到预定的水平1-α或缩短精确但保守的区间,本文将解决这一问题.因此,最优置信区间的构造是迫切的且有意义.本文一方面给出一些较优的区间,另一方面用h-函数方法改进现有的常用或推荐使用的区间.
本文的主要研究内容和相应成果包括以下四个方面:
(1)当观察到两个独立的二项分布时,广泛用于许多领域(包括生物医学研究)的可以比较两种方法的参数是相对风险(Relative Risk,RR)和优势比(Odds Ratio,OR).这两个参数的渐近或精确区间估计已经有很多.然而,这些区间可能是不可靠的或保守的.本文通过应用h-函数方法来改进一些现有区间.特别地,如果此区间是渐近的,那么改进后的区间是精确的;如果此区间是精确的,则改进的区间是此区间的子集.该方法还将多次应用于改进的区间,直到最终得到的区间不能再缩短.本文的研究指出对于RR,推荐最终改进的Wang-Shan区间;对于OR,推荐最终改进的Baptista-Pike区间.为了证明该方法的有效性,本文使用三个真实数据集来详细说明实践中几个好的区间是如何改进的.
(2)二项比例的加权和(Weighted Sum of Binomial Proportion)与交互作用(In-teraction Effect)是二项比例线性组合(Linear Combination of Binomial Proportions)的两个特殊情况.现有的这两个参数的置信区间都是渐近的.本文将h-函数方法应用于给定的渐近区间获得精确区间且将这个过程重复多次,直到最终改进的区间(精确)不能再缩短.特别地,对于两比例加权和,基于调整score(渐近)和fiducial区间为初始区间得出用h-函数的最终改进区间.在比较了目前已有的几种区间后,推荐使用这两种最终改进的区间.对于三比例加权和以及交互作用,推荐基于调整score区间的最终改进区间.同时,本文使用三个真实数据集详细说明了渐近区间的改进过程.
(3)由于实际情况的复杂性,许多领域(如临床诊断等)大量存在一类错误分类的二项数据.为叙述方便,此数据可视为由双抽样方案得到,包括金标准检测和易出错检测.此类数据总体服从的分布中的主要关注的参数是金标准检测的阳性率p.现有的区间并不可靠,因为未达到给定的名义水平.本文首先提出通过反转E+M得分(score)检验来构造精确区间,并用h-函数方法对此区间进行改进.然后进一步将h-函数方法应用于几个现有的渐近区间,通过比较发现本文提出区间的改进区间的总长度比其他改进的精确区间短.因此,实际应用中推荐本文提出的精确区间.除此之外,还对另两个参数感兴趣,即p*-易出错检测和金标准检测的阳性率之差和ζ-易出错检测的误报率.据我们了解,文献中对这两个参数的研究很有限.注意到p的任何区间都可以转换为p*的区间.p*的最优区间可由p的最优区间获得.对于ζ,我们得到将E+M score区间用h-函数方法改进的区间.本章用一个例子来说明如何计算区间,并给出了真实的数据分析.
(4)在生物医学等领域还会出现存在两类错误分类的二项数据.此类分布中关注的参数是真实的阳性率π.本文用h-函数方法改进了几个已有的表现较好的区间.通过比较区间的总长度,推荐使用最终改进的Bayesian区间.