本帖最后由 史锦顺 于 2017-12-17 14:14 编辑
-
统计测量的标准偏差不能除以根号N
——回复吴下阿蒙(1)
-
史锦顺
-
【吴下阿蒙】
史老提到的问题,实际中是存在的,但我认为这不是不确定度体系本身的问题,而是使用者缺乏足够的知识造成的(比如我之前那样)。不确定度的评定真的不是找几本规程看一看,拿一本书套一套就能评定的正确的,只能似是而非。
-
【史评】
你的这种认识,是长期学校教育的负作用,就是习惯于保守不变的模式:已有的理论是“从正确到正确”。如果出问题,是没用好。通常,这可能是对的,但有时却恰恰相反。要具体分析。我研究误差理论30年,又分析不确定度体系20年,结论是:误差理论有不足,但基本正确;而不确定度体系错了。
对不确定度体系,我的评价是:立基于不可知论,哲学观错;定义跳槽、分类穿帮、对象与手段混淆,逻辑错;估计代替计算、假设代替分析,方法错;混淆两类测量、混淆两种误差,测量模式错;混淆两种统计,统计方式错。由此导致计量、测量的各种处理方法全错。不确定度体系的一切,没有任何可取之处。不确定度体系是扰乱正常计量秩序、害人误事的伪科学。
-
原苏联的教育理论说,只能向学生讲正确的观点。但这不符合历史发展、理论发展的客观事实。事物发展的一条重要规律是“否定之否定”。
你进入测量计量界不久,还不了解关于“不确定度体系”的学术争论情况。不确定度体系在实际应用中的混乱与错误,原因是不确定度体系本身。我建议你抽空浏览一下我在本栏目贴出的抨击不确定度体系的杂文。为阅读方便,你把邮箱告诉我,我寄给你已编好的八本文集。
-
(一)统计测量的标准偏差不能除以根号N
【吴下阿蒙论述】
1. 除不除以根号n,取决于我们需要的测量结果是单值还是均值。
【史评】
你的这个观点,有普遍性。许多人都有这种观点或类似的观点。
我这里明确指出:在统计测量中,必须取平均值来表征统计变量的量值大小;而在取平均值的情况下又必须取单值的σ来表征统计变量的分散性。
这个分散性,又称重复性(同一测量条件),复现性(不同测量条件),波动性或稳定度(电源之电压、温度源之温度),频率稳定度(特指频率的短期随机变化,有采样时间、采样次数、计算方法的严格定义,本质是单值的σ)。
-
当前,包括一些书籍,有一个普遍的说法:量值取单值,则用单值的σ;量值取平均值,则用平均值的σ平。这个说法是错误的。说明如下。
1 高斯正态分布的理论
1.1 有偏正态分布
高斯有偏正态分布的几率密度函数为
p(Y) = {1/ [σ√(2π)]} exp [– (Y-μ)2 / (2σ2)] (1)
Y是变量,μ是变量Y的期望值。示意图如图1.图中以Y平代替μ。B是随机变量的标称值。β表示系统偏差。R表示总偏差范围。
-
1.2 无偏正态分布
令ξ = Y-μ,则
Eξ =E(Y-μ)=EY – μ=0
ξ是期望值为0的纯随机变量。
高斯无偏正态分布的几率密度函数为
p(ξ) = {1/ [σ√(2π)]} exp [– ξ2 / (2σ2)] (2)
随机变量ξ的分布是无偏正态分布。如图2。
-
1.3 标准正态分布图
再令σ=1,并令x=ξ,则称标准正态分布。标准正态分布的概率密度函数为
p(x) = [1/√(2π)] exp [– x2 / 2] (3)
正态分布的“概率函数”为
φ(x)= [1/√(2π)] ∫ (-∞→x) exp [– t2 / 2] (4)
标准正态分布的分布图与图2相同,只是把σ记为1即可。
-
2 取平均值时,偏差区间的包含概率的计算
《数学手册》(1980版)给出的是公式(3)与公式(4)的数值表。包含概率的计算方法如下。
求-kσ到+kσ的包含概率
从-∞到k的概率是φ(k),从k到+∞的包含概率是1-φ(k)。由于分布密度函数的对称性,从-∞到-k的包含概率与k到+∞的概率相等,为1-φ(k)。因此有:
p(-k→+k)=φ(k)-[1-φ(k)] =2φ(k)-1 (5)
-
2.1 区间[-σ,σ]
查表φ(1)=0.841345
包含概率为
pσ = 2φ(1)-1=0.841345×2-1=1.68269-1
= 0.683
-
2.2 区间[-2σ,2σ]
查表φ(2)=0.977250
包含概率为
p2σ= 2φ(2)-1=0.977250×2-1=1.9545-1
= 0.9545
-
2.3 区间[-3σ,3σ]
查表φ(3)=0.998650
包含概率为
p3σ= 2φ(3)-1=0.998650×2-1=1.9973-1
= 0.9973
-
3 不取平均值而取其他单值时,区间包含概率的计算
公式推导 设单值为Y平+ nσ , 区间半宽为kσ, 则区间为[(n-k) σ,(n+k)σ],有
K1=n-k
K2=n+k
当K为负值时,由于概率密度函数的对称性,从-∞到K(负值)的包含概率与-K到+∞的概率相等,都为1-φ(-K)。当K为正值时,从-∞到K(正值)的包含概率就是φ(K)。
从-∞到K2的包含概率减去从-∞到K1的包含概率,就是所求的区间[(n-k) σ,(n+k)σ]的包含概率。
-
3.1 计算公式
3.1.1 (n-k)<0,(n+k)>0
P =φ(n+k) – [1-φ(k-n)] (6)
3.1.2 (n-k) ≥0
P=φ(n+k) -φ(n-k) (7)
-
3.2 计算举例
例1 取Y=Y平+2σ,求半宽为3σ的区间的包含概率
k=3,n=2 按公式(6)计算
P =φ(n+k) – [1-φ(k-n)]
=φ(5)-[1-φ(1)]
≈φ(1)=0.841345
≈0.84
例2 取Y=Y平+2σ,求半宽为2σ的区间的包含概率
k=2,n=2 按公式(7)计算
P=φ(n+k) -φ(n-k)
=φ(4)- φ(0)
≈1-0.50
≈0.5
-
例3 取Y=Y平+3σ,求半宽为3σ的区间的包含概率
k=3,n=3 按公式(6)或(7)计算
P=φ(n+k) – [1-φ(k-n)]
=φ(6) – [1-φ(0)]
=φ(0)
= 0.5
例4 取Y=Y平+3σ,求半宽为2σ的区间的包含概率
k=2,n=3 按公式(7)计算
P=φ(n+k) -φ(n-k)
=φ(5) –φ(1)
=1-0.841345
= 0.16
说明:以上φ(6)、φ(5) 、φ(4)都近似为1.
-
请注意你,如果不取平均值,而是取其他单值,那么区间的包含概率就可能很小。上例中,有50%,甚至有16%,多么严重!
-
总结
统计变量的分散性,是统计变量本身的特性,必须如实地描述、表达,不能人为地缩小。单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。σ平不是随机变量的表征量。因此,表征随机变量的分散性,必须用σ。
以上观点,我多次表达过。这次进一步证明:用σ表达分散性,而取值必须取变量的平均值,才有通常人们熟知的“以2σ为半宽的区间的包含概率是95%”、“以3σ为半宽的区间的包含概率是99%”。如果不取平均值而取其他单值,则包含区间的概率就会大大降低,如例1到例4。
结论:
1 统计测量,σ不能除以根号N。不论测量多少次。
2 量值必须取平均值。
-
补充内容 (2017-12-17 16:13):
公式(4)的积分号内最后加dt |