粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第十四讲:系统误差
粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第十四讲:系统误差
本讲要点 ·系统误差的定义 系统不确定性与系统错误 系统误差的检查与结果并合 系统误差分析举例 2
2 本讲要点 系统误差的定义 系统不确定性与系统错误 系统误差的检查与结果并合 系统误差分析举例
统计误差与系统误差 统计误差 ·如果我们进行重复实验,结果的涨落会有多大? •暗示一些用来定义测量结果可能性的假定 。 ·通常在拟合后,根据似然函数的变化得到统计误差的大小。 系统误差 ·由于采用的假设存在不确定性,那么它对结果造成的影响是什么? 模型或理论的不确定性; 测量装置的模型化带来的影响。 •误差源不会随着实验的重复而发生变化: •通常情况下,结果会受到诸如刻度常数,效率,等等此类数值的不确定 影响。 注意:对系统误差曾经出现过两种定义。 3
3 统计误差与系统误差 统计误差 •如果我们进行重复实验,结果的涨落会有多大? •暗示一些用来定义测量结果可能性的假定。 •通常在拟合后,根据似然函数的变化得到统计误差的大小。 系统误差 •由于采用的假设存在不确定性,那么它对结果造成的影响是什么? •误差源不会随着实验的重复而发生变化; •通常情况下,结果会受到诸如刻度常数,效率,等等此类数值的不确定 影响。 模型或理论的不确定性; 测量装置的模型化带来的影响。 注意:对系统误差曾经出现过两种定义
系统不确定性与错误 定义一: 系统效应是包括了诸如本底,选择的偏向性,扫描效率,能量 分辨率,角度分辨率,计数器效率随束流与能量的变化,等等。在估计 这些系统效应带来的不确定性称为系统误差。 定义二:系统误差是由实验仪器、刻度、实验技术等等的过失造成的, 可重复产生的精度不确定性。 例子一: ·量能器能量从电信号D转为物理量E:E=(a±△)D; ·从观测的衰变事例数N计算衰变比率B:B=NI[N(E±△8] 例子二 定义的不同表 •忘记在测量中考虑温度的影响; 明了处理方式 ·在计算过程中对数值取整造成精度上的误差。 将会有不同。 4
4 系统不确定性与错误 定义一:系统效应是包括了诸如本底,选择的偏向性,扫描效率,能量 分辨率,角度分辨率,计数器效率随束流与能量的变化,等等。在估计 这些系统效应带来的不确定性称为系统误差。 定义二:系统误差是由实验仪器、刻度、实验技术等等的过失造成的, 可重复产生的精度不确定性。 例子一: •量能器能量从电信号 D 转为物理量 E:E= ( α ± Δ α) D; •从观测的衰变事例数 N 计算衰变比率 B:B=N / [ NT( ε ± Δ ε)] 。 例子二: •忘记在测量中考虑温度的影响; •在计算过程中对数值取整造成精度上的误差。 定义的不同表 明了处理方式 将会有不同。 定义的不同表 明了处理方式 将会有不同
随机不确定性与错误 在同一测量量给出的几个读数中 4 1.23,1.25,1.24,1.25, 不确定性 3.5 1.21,1.52,1.22,1.27 2.5 错误 可以看出哪些是由不确定性引起的, 1.5 哪些是由于错误引起的。 •统计分析提供了用以鉴别和确定不 0.5 确定性大小的工具。例如通过计算 1.1 1.2 1.4 1.5 均方差(RMS)的方法估计不确定性。 Value ·统计分析还提供了如何鉴别一个错误的方法,但它不能告诉我们下一步 该如何做,因为它无法告诉我们错误的根源在哪里。 5
5 随机不确定性与错误 在同一测量量给出的几个读数中 1.23, 1.25, 1.24, 1.25, 1.21, , 1.52 1.22, 1.27 可以看出哪些是由不确定性引起的, 哪些是由于错误引起的。 •统计分析提供了用以鉴别和确定不 确定性大小的工具。例如通过计算 均方差(RMS)的方法估计不确定性。 •统计分析还提供了如何鉴别一个错误的方法,但它不能告诉我们下一步 该如何做,因为它无法告诉我们错误的根源在哪里。 错误 不确定性
从语义学上定义系统误差 •物理学家通常将随机(统计)误差定义为随机不确定性而不是随机的错误 ·为了与上述定义保持一致,应该将系统误差定义为系统不确定性而不是 系统的错误 systematic error systematic uncertainty systematic mistake 与定义一相符,而与定义二不符 必须把错误结果从所谓的不确定性效应中的误差区分开来 •系统的错误应始终保持其应有的清晰定义 ·从名称上给出恰当的定义,可以澄清一个问题,那就是统计学并不提供 任何工具告诉我们该如何处理系统误差。因此,在所有统计理论的各种 参考书中,均没有如何确定系统误差的描述。 6
6 从语义学上定义系统误差 •物理学家通常将随机 (统计 )误差定义为随机不确定性而不是随机的错误 •为了与上述定义保持一致,应该将系统误差定义为系统不确定性而不是 系统的错误 与定义一相符,而与定义二不符 必须把错误结果从所谓的不确定性效应中的误差区分开来 •系统的错误应始终保持其应有的清晰定义 •从名称上给出恰当的定义,可以澄清一个问题,那就是统计学并不提供 任何工具告诉我们该如何处理系统误差。因此,在所有统计理论的各种 参考书中,均没有如何确定系统误差的描述。 syste m atic e rr o r = syste m atic uncertai n t y ≠ syste m a tic m istake
系统误差与偏向性 ·历史上有不少实验文章把系统误差与偏向性作为等效处理 ·但是这种处理方法在实际问题显得上不够充分。因为在讨论偏向性时, 还必须考虑以下几种情况: >我们知道系统有偏向性,然后设法将其消除掉,即可处理完毕; >我们没有认识到系统有偏向性,也没有采取任何措施加以处理,这是 种错误: >我们知道系统有偏向性,但是不知道偏离的方向和大小。 例如,用一把钢尺测量物体的长度,如何保证结果的准确性
7 系统误差与偏向性 •历史上有不少实验文章把系统误差与偏向性作为等效处理 •但是这种处理方法在实际问题显得上不够充分。因为在讨论偏向性时, 还必须考虑以下几种情况: ¾我们知道系统有偏向性,然后设法将其消除掉,即可处理完毕; ¾我们没有认识到系统有偏向性,也没有采取任何措施加以处理,这是 一种错误; ¾我们知道系统有偏向性,但是不知道偏离的方向和大小。 例如,用一把钢尺测量物体的长度,如何保证结果的准确性 …
例子:用钢尺测量物体长度 •如果伸缩系数精确已知,由于实际测量环境的温度与在对钢尺进行标度 时候的温度可能有差异,测量结果可能包含系统偏向性。根据对温度差异 的测量,可以对结果进行修正,存在于长度测量过程中的系统偏向性因此 得到精确估计。结果修正以后,不存在系统误差。 ·如果温度效应对长度测量的影响被忽略,结果会有错误。要想找到该错 误的原因,可以通过一致性检验,利用统计原理揭示可能的结果不一致 性,以便研究人员根据常识、 经验或直觉来寻找影响的根源。 ·如果温度效应对长度测量可以预测,但是在实验过程中并没有记录对温 度的测量值。可以估计实验过程中温度变化的大小,并将此看作是上述系 统效应的一种系统不确定性,给出可以接受的系统误差。 8
8 例子:用钢尺测量物体长度 •如果伸缩系数精确已知,由于实际测量环境的温度与在对钢尺进行标度 时候的温度可能有差异,测量结果可能包含系统偏向性。根据对温度差异 的测量,可以对结果进行修正,存在于长度测量过程中的系统偏向性因此 得到精确估计。结果修正以后,不存在系统误差。 •如果温度效应对长度测量的影响被忽略,结果会有错误。要想找到该错 误的原因,可以通过一致性检验,利用统计原理揭示可能的结果不一致 性,以便研究人员根据常识、经验或直觉来寻找影响的根源。 •如果温度效应对长度测量可以预测,但是在实验过程中并没有记录对温 度的测量值。可以估计实验过程中温度变化的大小,并将此看作是上述系 统效应的一种系统不确定性,给出可以接受的系统误差
系统误差可以是贝叶斯的 •随机不确定性符合频率论中概率的定义。多次测量的情况下,结果各自 有不同。通过概率可以表述结果出现某种极端情况的可能性。 •但是如果测量含有系统不确定性,根据定义每次观测的结果并不发生 改变。这种雷同的结果不能用于表述任何概率的含义,即不符合频率论 的定义。 例如:在正负电子对撞实验中,计算有多少反应发生(亮度估计) Bhabha 事例:e +e-->ete Ne=SLo.di=-.Ldt一∫Ldi=Ne/o 如果理论计算精度只到第三阶A0e~O(Q) 亮度计算结果总是给出同样的不准确性。 可以猜测这种不准确性(例如第四阶的几倍),这种带有假设性的估计 因此是带有主观性的(或贝叶斯的)概率。 9
9 系统误差可以是贝叶斯的 •随机不确定性符合频率论中概率的定义。多次测量的情况下,结果各自 有不同。通过概率可以表述结果出现某种极端情况的可能性。 •但是如果测量含有系统不确定性,根据定义每次观测的结果并不发生 改变。这种雷同的结果不能用于表述任何概率的含义,即不符合频率论 的定义。 例如:在正负电子对撞实验中,计算有多少反应发生 (亮度估计 ) Bhabha 事例: e + e- → e + e- N L ee e e e e = = σ d t σ L d t ∫ ∫ i i 3 ( ) Δ σ ee ∼ O α 亮度计算结果总是给出同样的不准确性。 可以猜测这种不准确性 (例如第四阶的几倍 ),这种带有假设性的估计 因此是带有主观性的 (或贝叶斯的 )概率。 / Ld ee ee t = N σ ∫ 如果理论计算精度只到第三阶
由误差的不确定性估计误差 假设实验结果R取决于某些参数α,对这些参数了解有限,存在某种不 确定性O。而且它们的不确定性对最终结果的影响不能通过误差传递 的代数计算得到。 引用结果为R(a),系统不确定性oa 通过采用蒙特卡罗方法计算R(a-oa) 与R(a+oa)。为了更为准确,也可 以取几倍的σ。,目的是得到斜率 →R'=dR/da 由于a的不确定性导致△R=o,R'也包含不确定性 问题:如何将这种不确定性较好地反映到R的误差上? 10
10 由误差的不确定性估计误差 假设实验结果 R 取决于某些参数 a,对这些参数了解有限,存在某种不 确定性 σa 。而且它们的不确定性对最终结果的影响不能通过误差传递 的代数计算得到。 R a −σ a σ a R' / = dR da 引用结果为 R( a ),系统不确定性 σa 。 通过采用蒙特卡罗方法计算 R(a- σa ) 与R(a+ σa ) 。为了更为准确,也可 以取几倍的 σa ,目的是得到斜率 ' a 由于a R 的不确定性导致 Δ = σ R 也包含不确定性 问题: 如何将这种不确定性较好地反映到 R的误差上?