本帖最后由 solarup 于 2017-5-2 13:24 编辑
杂志社退稿,正好拿来给大家看,因为得不到需要的反馈,放这里也许有人有更好的办法,所以欢迎批评指正。这文的主要目的是如何“看到”狄克逊公式中那几个统计量是什么,因为要背的话,狄克逊公式一堆下标太麻烦了。
其实退稿正常,这东西不值一提,我也是野人献曝,只不过对死活记不住公式的人有点用。
格式化文本见附件。
从狄克逊准则中统计量公式几何表示分析其构成元素下标的意义
在计量工作中,狄克逊(Dixon)准则(以下简称准则)是用于统计判别离群值的常用方法之一,被《GB/T 4883-2008 数据的统计处理和解释正态样本离群值的判断和处理》所采用的。根据重复观测的次数不同,其统计量有四种不同的公式计算得出。四个公式的大体形式相似,只有式中每个元素的下标不同。如果不明白狄克逊准则的基本思想,只是靠死记硬背,极容易会混淆。本文将对狄克逊准则统计量公式其构成的基本思想进行阐述,以此为依据用一维坐标的方式以几何化的直观表示,分析准则的统计公式的构成和每个元素所代表意义,以便使其更容易理解和记忆。
离群值(outlier),即所谓的异常值(abnormal value),又称作“粗大误差”,是指对一个被测量重复观测所获得的若干测量结果中,与其他值偏离较远且不符合统计规律的个别值。其存在会歪曲测量结果,必须进行剔除。如果引发异常值的情况不属于已知原因,仅仅是对某个偏离其他值较大的值进行怀疑,则要按照一定的统计准则进行。否则一旦靠主观误判剔除了仅仅反应较大波动的测量结果,会得到虚假的分散性。常见的统计准则有拉依达准则、狄克逊准则和格拉布斯准则。而狄克逊准则适用于观测次数在3到50次以内的多个异常值的情况[1]。
狄克逊准则的使用方法是:将重复观测所得的值按照从小到大的顺序排列为:x1,x2,...,xn,其中n为重复观测的次数,而xn为最大值,x1为最小值。按照以下几种情况计算统计量γij或γ’ij:
① 在n=3~7的情况下: ,
② 在n=8~10的情况下: ,
③ 在n=10~13的情况下: ,
④ 在n≥14的情况下: ,
将以上的γ10,γ’10;…;…;γ22,γ’22分别化简为γij,γ’ij。设D(α,n)为狄克逊检验的临界值,当γij>γ’ij,γij >D(α,n)时,xn为异常值;当γij<γ’ij,γij >D(α,n)时,则x1为异常值,否则没有异常值。这里可以看到,四种情况的四个公式非常类似,区别只是构成公式的每一元素的下标不同,单纯依靠机械记忆的话,非常容易混淆,所以只有理解了统计量计算公式构成的基本思想,才能够有效的记忆这四个公式。
狄克逊准则在本质上来说是一种用极差比双侧检验来判别离群值的方法[2]。所以要搞清楚准则中统计量计算公式中每个元素的下标意义是什么,可以通过分析下标反映的是极差在一维坐标上长的大小度,以及其所代表哪一侧的比值来获得。
为了抽象和简化,我们假设每两个相邻值之间的差值是等值的。且为了直观显示,我们假设n=10。因为x1到x10(xn)是从小到大的顺序排列,所以视其为依次落在一个一维横向坐标上的点。如下图1中所示:
图 1 观测值的一维坐标表示
所谓的极差,是指一系列数值中最大值与最小值之差,当这一系列数值按照顺序排列时,极差在一维坐标上反映出来的是一段长度。例如选取x4、x5、x6三个数值作其极差,则极差值为x6-x4,反映在坐标轴上是x4到x6之间线段的长度,如图2所示。
图 2 极差在一维坐标上的表示
按照这个思想,我们把γ10所表示的长度用一维坐标表示后如图3所示:
图 3 γ10的一维坐标表示
γ10就是如图所示右侧的极值与整个极值的比值。同理,我们把所有的γij和γ’ij的也用一维坐标表示,则如下图4所示:
图 4 准则公式中所有γij或γ’ij值的一维坐标表示
从图4中可以看出,准则中每种情况的公式不过是反映两侧不同侧的极值比,只不过γij是右侧较大值一端的比值,而γ’ij是左侧较小值一端极值的比值。
有了公式整体的直观表示以后,我们再观察其下标的意义。其中γ10的分子部分为xn-xn-1,下标的第一个数字1表示xn和xn-1之间的长度;而下标的第二个数字0表示整个长度(xn-x1)与分母所代表的长度(xn-x1)差值为0。其他的统计量同理可得。
假设我们把γ的下标的第一个数字称之为所含长度,代表要比较的那侧的部分极差,而把γ下标的第二个数字称之为整体余下长度,代表所要比较的那侧整体减去下标第二位值后的极差,那么所有的公式的格式就可以统一抽象为:部分所含长度/剩余总体长度。
所以,如果要记忆准则的公式,可以概括为:先看右侧(γij)再看左侧(γ’ij),部分所含除以总体剩余。
举例:γ’22的公式是对左侧端(或者说小值端)的计算,其包含长度为2,所以分子为x3-x1;总体长度为减去2个项后的剩余,故分母为xn-2-x1。
样本的观测值是离散的,但是几何表示的话,这些离散值不过是落在一维坐标上的一些点。本文为了直观表示准则的统计公式中每个元素的下标的意义,只是理想的假设这些值是等差的。其实现实情况下,这些值一般为非等差的,但是并不影响下标所反映的一维坐标中次序的关系。通过对几何表示的直观观察,更易理解“克逊准则在本质上来说是一种用极差比双侧检验来判别离群值的方法”这句话所体现的基本思想,也更易记忆狄克逊准则统计量的计算公式。
参考文献:
[1] 叶德培.一级注册计量师基础知识及专业实务[M]第三版.北京:中国质检出版社,2013.
[2] 熊艳艳,吴先球.粗大误差四种判别准则的比较和应用[J].大学物理实验,2010,第23(1):66-68
|
|