计量论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[概念] 从狄克逊准则中统计量公式几何表示分析其构成元素下标...

[复制链接]
solarup 发表于 2017-5-2 13:18:41 | 显示全部楼层 |阅读模式
本帖最后由 solarup 于 2017-5-2 13:24 编辑

杂志社退稿,正好拿来给大家看,因为得不到需要的反馈,放这里也许有人有更好的办法,所以欢迎批评指正。这文的主要目的是如何“看到”狄克逊公式中那几个统计量是什么,因为要背的话,狄克逊公式一堆下标太麻烦了。
其实退稿正常,这东西不值一提,我也是野人献曝,只不过对死活记不住公式的人有点用。
格式化文本见附件。

从狄克逊准则中统计量公式几何表示分析其构成元素下标的意义
在计量工作中,狄克逊(Dixon)准则(以下简称准则)是用于统计判别离群值的常用方法之一,被《GB/T 4883-2008 数据的统计处理和解释正态样本离群值的判断和处理》所采用的。根据重复观测的次数不同,其统计量有四种不同的公式计算得出。四个公式的大体形式相似,只有式中每个元素的下标不同。如果不明白狄克逊准则的基本思想,只是靠死记硬背,极容易会混淆。本文将对狄克逊准则统计量公式其构成的基本思想进行阐述,以此为依据用一维坐标的方式以几何化的直观表示,分析准则的统计公式的构成和每个元素所代表意义,以便使其更容易理解和记忆。
离群值(outlier),即所谓的异常值(abnormal value),又称作“粗大误差”,是指对一个被测量重复观测所获得的若干测量结果中,与其他值偏离较远且不符合统计规律的个别值。其存在会歪曲测量结果,必须进行剔除。如果引发异常值的情况不属于已知原因,仅仅是对某个偏离其他值较大的值进行怀疑,则要按照一定的统计准则进行。否则一旦靠主观误判剔除了仅仅反应较大波动的测量结果,会得到虚假的分散性。常见的统计准则有拉依达准则、狄克逊准则和格拉布斯准则。而狄克逊准则适用于观测次数在3到50次以内的多个异常值的情况[1]。
狄克逊准则的使用方法是:将重复观测所得的值按照从小到大的顺序排列为:x1,x2,...,xn,其中n为重复观测的次数,而xn为最大值,x1为最小值。按照以下几种情况计算统计量γij或γ’ij:
①        在n=3~7的情况下: ,
②        在n=8~10的情况下: ,
③        在n=10~13的情况下: ,
④        在n≥14的情况下: ,
将以上的γ10,γ’10;…;…;γ22,γ’22分别化简为γij,γ’ij。设D(α,n)为狄克逊检验的临界值,当γij>γ’ij,γij >D(α,n)时,xn为异常值;当γij<γ’ij,γij >D(α,n)时,则x1为异常值,否则没有异常值。这里可以看到,四种情况的四个公式非常类似,区别只是构成公式的每一元素的下标不同,单纯依靠机械记忆的话,非常容易混淆,所以只有理解了统计量计算公式构成的基本思想,才能够有效的记忆这四个公式。
狄克逊准则在本质上来说是一种用极差比双侧检验来判别离群值的方法[2]。所以要搞清楚准则中统计量计算公式中每个元素的下标意义是什么,可以通过分析下标反映的是极差在一维坐标上长的大小度,以及其所代表哪一侧的比值来获得。
为了抽象和简化,我们假设每两个相邻值之间的差值是等值的。且为了直观显示,我们假设n=10。因为x1到x10(xn)是从小到大的顺序排列,所以视其为依次落在一个一维横向坐标上的点。如下图1中所示:

图 1 观测值的一维坐标表示
所谓的极差,是指一系列数值中最大值与最小值之差,当这一系列数值按照顺序排列时,极差在一维坐标上反映出来的是一段长度。例如选取x4、x5、x6三个数值作其极差,则极差值为x6-x4,反映在坐标轴上是x4到x6之间线段的长度,如图2所示。

图 2 极差在一维坐标上的表示
按照这个思想,我们把γ10所表示的长度用一维坐标表示后如图3所示:

图 3 γ10的一维坐标表示
γ10就是如图所示右侧的极值与整个极值的比值。同理,我们把所有的γij和γ’ij的也用一维坐标表示,则如下图4所示:

图 4 准则公式中所有γij或γ’ij值的一维坐标表示
从图4中可以看出,准则中每种情况的公式不过是反映两侧不同侧的极值比,只不过γij是右侧较大值一端的比值,而γ’ij是左侧较小值一端极值的比值。
有了公式整体的直观表示以后,我们再观察其下标的意义。其中γ10的分子部分为xn-xn-1,下标的第一个数字1表示xn和xn-1之间的长度;而下标的第二个数字0表示整个长度(xn-x1)与分母所代表的长度(xn-x1)差值为0。其他的统计量同理可得。
假设我们把γ的下标的第一个数字称之为所含长度,代表要比较的那侧的部分极差,而把γ下标的第二个数字称之为整体余下长度,代表所要比较的那侧整体减去下标第二位值后的极差,那么所有的公式的格式就可以统一抽象为:部分所含长度/剩余总体长度。
所以,如果要记忆准则的公式,可以概括为:先看右侧(γij)再看左侧(γ’ij),部分所含除以总体剩余。
举例:γ’22的公式是对左侧端(或者说小值端)的计算,其包含长度为2,所以分子为x3-x1;总体长度为减去2个项后的剩余,故分母为xn-2-x1。
样本的观测值是离散的,但是几何表示的话,这些离散值不过是落在一维坐标上的一些点。本文为了直观表示准则的统计公式中每个元素的下标的意义,只是理想的假设这些值是等差的。其实现实情况下,这些值一般为非等差的,但是并不影响下标所反映的一维坐标中次序的关系。通过对几何表示的直观观察,更易理解“克逊准则在本质上来说是一种用极差比双侧检验来判别离群值的方法”这句话所体现的基本思想,也更易记忆狄克逊准则统计量的计算公式。

参考文献:
[1] 叶德培.一级注册计量师基础知识及专业实务[M]第三版.北京:中国质检出版社,2013.
[2] 熊艳艳,吴先球.粗大误差四种判别准则的比较和应用[J].大学物理实验,2010,第23(1):66-68



从狄克逊准则中统计量公式改.docx

241.01 KB, 下载次数: 79, 下载积分: 金币 -1

狄克逊准则统计量

吴下阿蒙 发表于 2017-5-2 17:26:14 | 显示全部楼层
谢谢分享,不过还是很难记=。=请问,不同的次数为什么选取的公式不同呢?比如从n=7变成n=8,分母的选取减少了1个长度的原因的什么呢?临界值中的a是什么意思?临界值表是根据什么得出的?谢谢!
尖嘴猴腮 发表于 2017-5-3 21:51:18 | 显示全部楼层
吴下阿蒙 发表于 2017-5-2 17:26
谢谢分享,不过还是很难记=。=请问,不同的次数为什么选取的公式不同呢?比如从n=7变成n=8,分母的选取减少 ...

根据计量师书上说的,a是概率吧。计算的时候,按要求a=0.05或者a=0.01
尖嘴猴腮 发表于 2017-5-3 21:53:19 | 显示全部楼层
有时间写一写合成标准不确定度的传播率那部分的知识,书上的学不太懂,都卡住好几天了,一直算不明白,还请赐教
吴下阿蒙 发表于 2017-5-4 12:00:43 | 显示全部楼层
尖嘴猴腮 发表于 2017-5-3 21:51
根据计量师书上说的,a是概率吧。计算的时候,按要求a=0.05或者a=0.01

请问这个a=0.05的概率是啥意思呢?5%?正态分布的?
 楼主| solarup 发表于 2017-5-4 17:43:38 | 显示全部楼层
吴下阿蒙 发表于 2017-5-4 12:00
请问这个a=0.05的概率是啥意思呢?5%?正态分布的?

卡啊卡啊卡,网页耍不粗来,我这几天单位电脑有病毒了,周六日了我回家专门写写你说的问题。
 楼主| solarup 发表于 2017-5-4 17:44:47 | 显示全部楼层
尖嘴猴腮 发表于 2017-5-3 21:53
有时间写一写合成标准不确定度的传播率那部分的知识,书上的学不太懂,都卡住好几天了,一直算不明白,还请 ...

可是这个我也不怎么懂啊,我也只是在记住公式的基础上而已
尖嘴猴腮 发表于 2017-5-4 20:37:44 | 显示全部楼层
solarup 发表于 2017-5-4 17:43
卡啊卡啊卡,网页耍不粗来,我这几天单位电脑有病毒了,周六日了我回家专门写写你说的问题。 ...

好,周六等着看你的帖子
尖嘴猴腮 发表于 2017-5-4 20:38:37 | 显示全部楼层
吴下阿蒙 发表于 2017-5-4 12:00
请问这个a=0.05的概率是啥意思呢?5%?正态分布的?

a=0.05,概率P=1-a=0.95
好像是这个意思
罗曼 发表于 2017-5-4 22:54:09 | 显示全部楼层
咨询一个问题,比如说对一个被测对象在重复条件下测量了8次,得到8个观测值,这10个观测值中有两个值是相同的,那么在运用狄克逊准则的时候,n=8还是n=7?谢谢!
长度室 发表于 2017-5-5 15:19:42 | 显示全部楼层
吴下阿蒙 发表于 2017-5-4 12:00
请问这个a=0.05的概率是啥意思呢?5%?正态分布的?

α是显著性水平,p是置信水平,α+p=1。因此α=0.05,就是置信水平取95% 。
 楼主| solarup 发表于 2017-5-6 06:40:23 | 显示全部楼层
本帖最后由 solarup 于 2017-5-6 07:18 编辑
吴下阿蒙 发表于 2017-5-2 17:26
谢谢分享,不过还是很难记=。=请问,不同的次数为什么选取的公式不同呢?比如从n=7变成n=8,分母的选取减少 ...


丑话说前头,我以下的话,可能作用不大。只不过把我的思考过程写下来而已。至于迪克逊准则怎么来的,我不知道,我只是知道我怎么理解的。
用软件画图不易,这里手画吧。画的丑,将就啊。
α(希腊字母alpha,不是英文a),是置信度,意思是“置(于何种)信(任)(程)度”的意思。当然还有置信水平,显著性水平的,以及相关的包含区间,置信区间啥的,都是名字不同,其实意思上可能相近(甚至相反),反正教材不同你看到的不同,但是都是指那么一回事。(不信你看看大工上课的教材,α和别人的1-α是一回事)。总之这几个概念和是1罢了。
α=0.01,那么可信任程度(包含概率)就是1-0.01=0.99(可信任程度为99%,值落入的可能是99%,诸如此类想法)。
个别书把那个0.99叫α
我们的几个公式,都是针对正态分布而言,正态分布,单峰,对称,μ决定位置,δ决定形状。
如果要用迪克逊,那么α值可能为0.05或者0.01。问题是,如果α=0.99或0.95,那么k是几?我们常说3δ准则,其实就是k=3,有3格δ事,就差不多是99%了。其实k=3我们大约是99.73%。k=2大约是95.45%。约等一下,99%和95%差不多了。
意思如下图:
1.png
如果我们看δ这个字母,嘿,就是误差啊,误差误差就是差啊,差还是长度啊,k就是有几个这样的长度啊。
迪克逊准则是从小到大排列的。
我们记得,平均值是μ的估计值,但是还有一个值,虽然不是无偏(差)估计值,但是也经常作为一个估计值,那就是中值,只不过有偏差罢了。
所以,下面的话不过是为了容易理解,并非严格推导,而是抱着“虽不中,亦不远的”心态来阅读吧。
所以当n=3时,就可以产生一个对称的类似正态分布的曲线了。
2.png
这个时候把x2-x1当作一个δ没任何问题,因为是100%落入啊。问题是随着n增加,δ会“变短”,这个时候要确定还是99%以上,就要用到那个3δ了。当μ为几的时候可能需要呢?当然是4,因为此时左右各有三个δ。因为4是μ的估计是,作为中值时,n就为7
3.png
注意,这里的中值作为估计值不是无偏的,正态分布的观测值也不会正好形成这么个曲线,不过是“类似”而已。
好了,如果n=8呢?中值是几?嗯,我们可以把4~5中间的长度看作中值,反正长度也是一个值,然后把插空长看作值,那么还是类似正态的曲线。
4.png
问题,这里的δ不是x2-x1么?其实,还是那句话,约等。
同理:当中值为5,n=9
当中值为5~6,n=10
这个时候选取长度为δ,都可以保证比值≤1/3
那么,如果δ为2呢?类似于γ01的情景,不过当时推导上限值为7,这次推导出上限值为13,为啥,看下面中值为7的情况
中值为6,n=11
中值为6~7,n=12
中值为7,n=13
画图也是这个意思:
5.png

有没有看出来这几个值啥意思...
不过说实话,这样看,只是大概了解为什么这么干,但是对记n的值没多大帮助,而且计算不精确(99%和99.73%还是差别蛮大的,同理95也是),所以我觉得没有什么太深入的必要,不然你会对分段很难理解,特别是γ01的上限n值,要知道人家是精确的推导实验来的,我这种可不是。
不过,按照这个思想,n的值为何为3、7、13还是蛮好记的,至于γ22的值就是大于13上的一个数嘛(14),γ01下限就是>7上的一个数嘛(8),当初我记这个就是γ01的没管,γ11就是4~5到5~6为中值,γ21就是6、7为中值这么记的。
 楼主| solarup 发表于 2017-5-6 06:47:18 | 显示全部楼层
罗曼 发表于 2017-5-4 22:54
咨询一个问题,比如说对一个被测对象在重复条件下测量了8次,得到8个观测值,这10个观测值中有两个值是相同 ...

我知道的都是写n为重复观测次数
也就是n=8.不知道您是从何处得来的?还望指教。
 楼主| solarup 发表于 2017-5-6 07:03:31 | 显示全部楼层
尖嘴猴腮 发表于 2017-5-3 21:53
有时间写一写合成标准不确定度的传播率那部分的知识,书上的学不太懂,都卡住好几天了,一直算不明白,还请 ...

我不知道你说哪里有问题?
我觉得不确定度传播率公式很好懂啊
就是各项灵敏度系数与不确定度的方和根
至于后面还有一个,我觉得协方差不就是相关联带来的方差嘛,你是两个量的协方差,就要加两次嘛,所以就是2倍的说。因为协方差也是两个量的不确定度估计值乘积,所以就不要写成方的形式了。
只是一点低劣的看法,不知可有探讨之处?
罗曼 发表于 2017-5-6 11:32:38 | 显示全部楼层
solarup 发表于 2017-5-6 06:47
我知道的都是写n为重复观测次数
也就是n=8.不知道您是从何处得来的?还望指教。 ...

一级注册计量师的大纲里面的案例分析题,我是按n=8次计算的,结果答案却是按7次,所以我也不确定了。
 楼主| solarup 发表于 2017-5-6 14:50:52 | 显示全部楼层
本帖最后由 solarup 于 2017-5-6 14:53 编辑
罗曼 发表于 2017-5-6 11:32
一级注册计量师的大纲里面的案例分析题,我是按n=8次计算的,结果答案却是按7次,所以我也不确定了。 ...


能告知是哪个案列么?我也看书了,抱歉没看到这个
我看的是案例3-6和3-7,没有出现这种问题呢。
罗曼 发表于 2017-5-6 23:06:47 | 显示全部楼层
solarup 发表于 2017-5-6 14:50
能告知是哪个案列么?我也看书了,抱歉没看到这个
我看的是案例3-6和3-7,没有出现这种问题呢。 ...

周一发给你,书我没带回来。
罗曼 发表于 2017-5-8 09:34:29 | 显示全部楼层
《一级注册计师资格考试大纲习题及案例详解》这本书,第296页,第三题的第3小问。你看看
maple1314168 发表于 2017-5-8 09:40:15 | 显示全部楼层
本帖最后由 maple1314168 于 2017-5-8 09:45 编辑
吴下阿蒙 发表于 2017-5-2 17:26
谢谢分享,不过还是很难记=。=请问,不同的次数为什么选取的公式不同呢?比如从n=7变成n=8,分母的选取减少 ...


狄克逊准则  当然是从 狄克逊的论文 推出来的。
狄克逊准则的论文一般认为是1950、1951的两篇。
1、1950推出的论文《Analysis of Extreme Values》是讲解准则的应用,这解释为什么出现分段的原因(r10、r11、r12、r20、r21、r22)。因为各区间里的性能(performance)高。
2、1951推出的论文《Ratios Involving Extreme Values 》是讲解临界值是如何来的。这涉及高阶积分!能在1950年计算出来实属不易。
后来在楼主提及的标准GBT 4883-2008 将n提高到100,而且精确到四位小数,使用的蒙特卡洛计算积分。当然这也是2006年,老外的事情了
。不知道狄克逊当年是不是也用这种方法。当时蒙特卡洛方法刚刚从军事(Atom Bomb)走下来,不过看狄克逊的论文也是与海军研究院有联系的
(这在4883-2008的参考文献上)。
无标题.png
吴下阿蒙 发表于 2017-5-8 11:12:25 | 显示全部楼层
maple1314168 发表于 2017-5-8 09:40
狄克逊准则  当然是从 狄克逊的论文 推出来的。
狄克逊准则的论文一般认为是1950、1951的两篇。
1、1950 ...

呵呵,非常感谢!问这个问题时候就感觉这可能是经过严密复杂的推导计算来的,只是好奇,果然超纲了=。=
尖嘴猴腮 发表于 2017-5-8 22:15:00 | 显示全部楼层
solarup 发表于 2017-5-6 07:03
我不知道你说哪里有问题?
我觉得不确定度传播率公式很好懂啊
就是各项灵敏度系数与不确定度的方和根

就是一遇到题就算不明白了,可能数学不好,对传播率的公式理解的不到位吧
尖嘴猴腮 发表于 2017-5-8 22:15:50 | 显示全部楼层
罗曼 发表于 2017-5-8 09:34
《一级注册计师资格考试大纲习题及案例详解》这本书,第296页,第三题的第3小问。你看看 ...

我的书怎么才246页,我是不是买到假书了
oldfish 发表于 2017-5-8 23:09:08 来自手机 | 显示全部楼层
尖嘴猴腮 发表于 2017-5-8 22:15
就是一遇到题就算不明白了,可能数学不好,对传播率的公式理解的不到位吧 ...

建议你找个典型的例题看看,结合题目记忆并理解传播率公式,这样可能效率高一些。咱们平时接触的不确定度评定,我觉得还是挺“八股”的,基本是一个思路套公式。写模型,算标准不确定度和灵敏系数,判断相关性,合成,根据模型或测量方法判断是否需要计算有效自由度或者直接取k=2。先多找点例题看看吧
罗曼 发表于 2017-5-9 15:14:20 | 显示全部楼层
尖嘴猴腮 发表于 2017-5-8 22:15
我的书怎么才246页,我是不是买到假书了

你是不是看错书了,是有一本课后题的答案,但我说的那本书,主编是黄耀文,副 主编是林景星,郑党儿,主审赵天川。你再看看。
 楼主| solarup 发表于 2017-5-9 20:44:18 | 显示全部楼层
罗曼 发表于 2017-5-8 09:34
《一级注册计师资格考试大纲习题及案例详解》这本书,第296页,第三题的第3小问。你看看 ...

非常抱歉,第一次是我看错书了,我以为是教材,谁知道是大纲。因为我的这本书放在家里了,前两天没回家,所以没有及时回复。现在我找到了这道题,现在给你答复。
大纲中确实存在你说的问题。
但是对有相同值的情景,再教材和国标中,均给出的是n还是观测次数,也就是大纲中的按照国标和教材应该是8,即使有两个数相同。
这只是照本念经,其实我倾向于同值的按照一个去计算,原因嘛,和我上面写的对n值选择有关。不过我觉得那应该再查找资料核实,我去找资料去。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|计量论坛 ( 闽ICP备06005787号-1—304所 )
电话:0592-5613810 QQ:473647 微信:gfjlbbs闽公网安备 35020602000072号

GMT+8, 2024-11-10 22:34

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表