本帖最后由 史锦顺 于 2017-12-31 10:00 编辑
-
偏差区间的包含概率的计算
-
史锦顺
-
1 两类测量的两种方差
1.1 两类测量
对常量的测量称为基础测量。经典误差理论的应用范围是基础测量。基础测量的条件是被测量的变化范围远小于测量仪器的误差范围。被测量有慢变化,但在测量时段内,变化可略,也是基础测量。
在基础测量中,随机变化的误差,称随机误差;在测量的时段内为恒值的误差,称为系统误差。测量者进行重复测量,即可认知随机误差;但因测量场合没有计量标准,无法确定系统误差。在计量场合,有计量标准,不仅可以测知随机误差范围,也可以测知系统误差。随机误差范围与系统误差范围,在有计量标准的条件下,都可以通过测量来确定。
测量仪器的长期稳定度、环境条件等的影响量,体现在仪器机理设计中,并经过实践考验证实,仪器方能定型生产。生产厂在给出仪器性能指标时,是包含这部分内容的。就是说,仪器的性能指标,是指工作性能指标,包括使用条件(如温度范围等)、指标保证时段(通常为一年。也可给出三个月、半年、一年、三年的时段限制)。
计量只管当时的随机误差与系统误差,不涉及长稳与环境温度。如果在长稳与环境温度方面出问题(非人工破坏或保管、使用不当),责任由生产厂负责。
-
1.2 两种方差
在基础测量中,仪器示值的随机变化,是仪器自身的性能(外界影响也是通过仪器而体现出来的),与被测量无关,是仪器的随机误差。
测量值的方差的平方根是仪器的随机误差。多次测量,取平均值,可以减小随机误差。测量的随机误差范围是3σ平。
-
在统计测量中,仪器的误差可略,仪器示值的随机变化,是被测量的随机变化引起的。
测量值的方差的平方根是被测统计变量的随机偏差。多次测量,取平均值。平均值是随机变量的最佳代表值。各个测量值都是被测统计变量的真值(仪器误差可略),测量结果是平均值加减偏差范围。以平均值为中心的、以偏差范围(3σ)为半宽的区间,对被测统计变量的包含概率是99.7%.
-
2 高斯正态分布的理论
2.1 有偏正态分布
高斯有偏正态分布的几率密度函数为
p(Y) = {1/ [σ√(2π)]} exp [– (Y-μ)2 / (2σ2)] (1)
2.2 无偏正态分布
令ξ = Y-μ,则
Eξ =E(Y-μ)=EY – μ=0
ξ是期望值为0的纯随机变量。
高斯无偏正态分布的几率密度函数为
p(ξ) = {1/ [σ√(2π)]} exp [– ξ2 / (2σ2)] (2)
2.3 标准正态分布
再令σ=1,并令x=ξ,则称标准正态分布。标准正态分布的概率密度函数为
p(x) = [1/√(2π)] exp [– x2 / 2] (3)
正态分布的“概率函数”为
φ(x)= [1/√(2π)]∫(-∞→x) [exp (– t2 / 2)] dt (4)
《数学手册》(1980版)给出的是公式(3)与公式(4)的数值表。本文据此计算。
-
3 正常情况下,统计变量偏差区间包含概率的计算
定义1 偏差
统计变量的量值与期望值之差。
定义2 偏差范围
偏差范围是偏差绝对值的一定概率意义上的最大可能值。
定义3 统计变量的量值区间
[M平-3σ,M平,M平+ 3σ]
用平均值代表被测的统计变量,是正确的,就是正常情况。所谓包含概率,就是以平均值为中心的、以偏差范围为半宽的区间,包含各个统计变量的概率。
3.1 包含概率的规律
1)规律1 由概率函数定义,从-∞到k的概率是φ(k),
p(-∞→+k) =φ(k) (5)
-
2)规律2 从-∞到k的概率是φ(k),从k到+∞的包含概率是1-φ(k)。由于分布密度函数的对称性,从-∞到-k的包含概率与k到+∞的概率相等,都是1-φ(k)。有
从-∞到-k的包含概率为
p(-∞→-k) = 1-φ(k)
φ(-k) = 1-φ(k) (6)
3)规律3 以平均值为中心的对称区间的包含概率
p(-k→+k) = p(-∞→+k) – p(-∞→-k )
=φ(k) -φ(-k)
=φ(k) – [1-φ(k)]
=2φ(k)-1 (7)
-
3.2 包含概率的计算
3.2.1 区间 [M平-σ,M平,M平+σ] ,简记为[-σ,+σ]
查表φ(1)=0.841345
k=1,代入公式(7),包含概率为
pσ = 2φ(1)-1=0.841345×2-1=1.68269-1
= 0.683 (8)
-
3.2.2 区间 [M平-2σ,M平,M平+2σ] ,简记为[-2σ,+2σ]
查表φ(2)=0.977250,
k=2,代入公式(7),包含概率为
p2σ= 2φ(2)-1=0.977250×2-1=1.9545-1
= 0.9545 (9)
-
3.2.3 区间 [M平-3σ,M平,M平+3σ] ,简记为[-3σ,+3σ]
查表φ(3)=0.998650
k=3,代入公式(7),包含概率为
p3σ= 2φ(3)-1=0.998650×2-1=1.9973-1
= 0.9973 (10)
以上(8)(9)(10)是以平均值为中心的正常情况,是测量计量工作者熟知的几个重要数据。误差理论主张取3σ为区间半宽,包含概率是99.73%;不确定度体系通常(默认)取2σ为区间半宽,包含概率是95.45%.
-
4 非正常情况,即不取平均值而取其他单值时,区间包含概率的计算
公式推导 设单值为Y平+ nσ , 区间半宽为kσ, 则区间为[(n-k) σ,(n+k)σ],有
K1=n-k
K2=n+k
当K为负值时,由于概率密度函数的对称性,从-∞到K(负值)的包含概率与-K到+∞的概率相等,都为1-φ(-K)。当K为正值时,从-∞到K(正值)的包含概率就是φ(K)。
从-∞到K2的包含概率减去从-∞到K1的包含概率,就是所求的区间[(n-k) σ,(n+k)σ]的包含概率。
-
4.1 计算公式
4.1.1 (n-k)<0,(n+k)>0
P =φ(n+k) – [1-φ(k-n)] (11)
4.1.2 (n-k) ≥0
P=φ(n+k) -φ(n-k) (12)
-
3.2 计算举例
例1 取Y=Y平+2σ,求半宽为3σ的区间的包含概率
k=3,n=2 按公式(11)计算
P =φ(n+k) – [1-φ(k-n)]
=φ(5)-[1-φ(1)]
≈φ(1)=0.841345
≈0.84
例2 取Y=Y平+2σ,求半宽为2σ的区间的包含概率
k=2,n=2 按公式(12)计算
P=φ(n+k) -φ(n-k)
=φ(4)- φ(0)
≈1-0.50
≈0.5
-
例3 取Y=Y平+3σ,求半宽为3σ的区间的包含概率
k=3,n=3 按公式(6)或(7)计算
P=φ(n+k) – [1-φ(k-n)]
=φ(6) – [1-φ(0)]
=φ(0)
= 0.5
例4 取Y=Y平+3σ,求半宽为2σ的区间的包含概率
k=2,n=3 按公式(7)计算
P=φ(n+k) -φ(n-k)
=φ(5) –φ(1)
=1-0.841345
= 0.16
说明:以上φ(6)、φ(5) 、φ(4)都近似为1.
-
总结
统计变量的分散性,是统计变量本身的特性,必须如实地描述、表达,不能人为地缩小。单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。σ平不是随机变量的表征量。因此,表征随机变量的分散性,必须用σ。
用σ表达分散性,而取值必须取变量的平均值,才有通常人们熟知的“以2σ为半宽的区间的包含概率是95.45%”、“以3σ为半宽的区间的包含概率是99.73%”。如果不取平均值而取其他单值,则包含区间的概率就会大大降低,如例1到例4。就是说:
1 统计测量,σ不能除以根号N。不论测量多少次。
2 量值必须取平均值。
-
附录 统计测量,如果取σ平,即σ除以根号N,会是什么结果
(1)由于σ平=σ/√N,设N=25,则σ平=σ/5。此时以3σ平为半宽的区间为
[M平-3σ平,M平,M平+3σ平] (13)
因σ平=σ/5,代入(13)
[M平-0.6σ,M平,M平+0.6σ] (14)
根据公式(7)
p(-k→+k) = 2φ(k)-1
k=0.6 查表 φ(0.6)=0.725747
p(-0.6→+0.6) = 2φ(0.6)-1
= 2×0.725747 -1
=0.4515 (15)
(2)条件同上,此时以2σ平为半宽的区间为
[M平-2σ平,M平,M平+2σ平] (16)
因σ平=σ/5,代入(16)
[M平-0.4σ,M平,M平+0.4σ] (17)
根据公式(7)
p(-k→+k) = 2φ(k)-1
k=0.4 查表 φ(0.4)= 0.655422
p(-0.6→+0.6) = 2φ(0.4)-1
= 2×0.655422 -1
=0.3108 (18)
由以上计算可知,如果取σ平,以3σ平为半宽的区间,对随机变量的包含概率是45.15%;以2σ平为半宽的区间,对随机变量的包含概率是31.08%. 包含概率太低了!
-
思考题
在基础测量(常量测量)中,要取σ平,怎样说明“包含区间”与“包含概率”的问题呢?
-
|