清华大学：粒子物理与核物理实验中的数据分析（PPT课件讲稿）第五讲统计检验（主讲：杨振伟）

假设，检验统计量，显著水平，功效两种假设下的统计检验纽曼-皮尔森引理如何构造一个检验统计量 Fisher甄别函数与神经网络检验拟合优度，P-值定义与应用信号观测的显著程度皮尔逊的x2检验

团购合买资源类别：文库，文档格式：PPT，文档页数：49，文件大小：3.35MB

粒子物理与核物理实验中的数据分析杨振伟清华大学第五讲:统计检验

粒子物理与核物理实验中的数据分析杨振伟清华大学第五讲：统计检验

本讲要点口假设,检验统计量,显著水平,功效口两种假设下的统计检验口纽曼-皮尔森引理口如何构造一个检验统计量口 Fisher甄别函数与神经网络口检验拟合优度,P值定义与应用口信号观测的显著程度口皮尔逊的x2检验 2021-01-29

2021-01-29 2 本讲要点 ❑假设，检验统计量，显著水平，功效 ❑两种假设下的统计检验 ❑纽曼-皮尔森引理 ❑如何构造一个检验统计量 ❑Fisher甄别函数与神经网络 ❑检验拟合优度，P-值定义与应用 ❑信号观测的显著程度 ❑皮尔逊的  2 检验

概率与统计统计的含义可以通过比较概率理论来理解概率统计(参量测定与假设检验) 从理论到数据从数据到理论通过计算某些可观测进行所谓的假设检验,比较理论预量(例如,平均值,分期的参量值或分布。从观察的实验布等)来给出预期的实数据中给出所研究参数的观测值和验分布。误差,并且在某一置信水平上检验例如:若宇称守衡,理论的正确与否对一特定衰变分布有例如:观测到一特定衰变分布,是什么影响? 否可以断定宇称守衡? 2021-01-29

2021-01-29 3 概率与统计统计的含义可以通过比较概率理论来理解概率统计(参量测定与假设检验) 从理论到数据从数据到理论通过计算某些可观测量(例如，平均值，分布等)来给出预期的实验分布。例如：若宇称守衡，对一特定衰变分布有什么影响？进行所谓的假设检验，比较理论预期的参量值或分布。从观察的实验数据中给出所研究参数的观测值和误差，并且在某一置信水平上检验理论的正确与否。例如：观测到一特定衰变分布，是否可以断定宇称守衡？

统计分析的目标假设检验参数拟合检验数据是否与某利用数据确定自由参特定理论相符(注意, 数的大小。该理论可包含一些自由参数)。相符的程度由显著水参数的准确程度由对应平来表示。的误差大小来表示。 2021-01-29 4

2021-01-29 4 统计分析的目标假设检验参数拟合检验数据是否与某一特定理论相符(注意，该理论可包含一些自由参数）。利用数据确定自由参数的大小。相符的程度由显著水平来表示。参数的准确程度由对应的误差大小来表示

中微子振荡假设检验利用加速器把中微子射往远处的探测器,观察有多少中微子发生了形态上的改变,即所谓的加速器中微子振荡实验 P(v→>v)=1-sin( 2(20)sin2(127^m 日本K2K实验 Beam Matrix Unosci lated 40· MINOS Best Fit ND Ft Unsc lated 14 L=250 km MINOS 90%C L MINOS 68% C L 器 NC Background 12 35 MINOS Data 无效假设振荡假设 K2K 90% CL SK 90% C, L Reconstructed E(Gev) SK(LE)90%C L. 2.0 美国 MINOS实验 L=700 km 2040.60.81.0 Phys. Rev. Lett97,191801(2006) Phys. Rev. D74072003(2006) 振荡假设符合概率:37%「美国实验证实了日本实验而且实验精度更高。无效假设符合概率:0.07% 2021-01-29

2021-01-29 5 中微子振荡假设检验振荡假设符合概率：37% 无效假设符合概率：0.07% 利用加速器把中微子射往远处的探测器，观察有多少中微子发生了形态上的改变，即所谓的加速器中微子振荡实验 2 2 2 ( ) 1 sin (2 )sin (1.27 ) L P E m      →  = −   日本K2K实验 L=250 km 美国MINOS实验 L=700 km 美国实验证实了日本实验而且实验精度更高。 Phys.Rev.D74,072003(2006) Phys.Rev.Lett.97,191801(2006) 无效假设振荡假设

假设检验假如测量结果为x=(x1,x2,xn)例如:正负电子对撞后所产生的事例中,对于每个事例,有下列测量量 x1=产生的带电粒子数;x2=粒子的平均横动量;x3=产生的”喷注"数目; 这里x服从在n-维空间的某些与产生事例类型有关的联合概率密度函数,例如:正负电子对撞,原子核与原子核碰撞,等等。那么这些联合的概率密度函数f(x)取决于采取何种假设 f(x|Hf(xH)等等通常情况下很难处理多维的间题, 因此,常常构造低维的统计检验在简单假设:f(x)无未定参数不失去甄别各种假设能力的条件下, 复杂假设:f(x;a)含未定参数a 使得(x)成为精简后的数据样本那么此时的统计量t具有概率密度函数g(t|H)g(t|H1)2 2021-01-29 6

2021-01-29 6 假设检验 1 2 3 x x x = = = 产生的带电粒子数; ; " " ; 粒子的平均横动量产生的喷注数目 0 1 , : , , ( ) ( | ), ( | ), x n f x f x H f x H 这里服从在 −维空间的某些与产生事例类型有关的联合概率密度函数例如正负电子对撞原子核与原子核碰撞等等。那么这些联合的概率密度函数取决于采取何种假设。等等 1 2 ( , ,..., ), n 假如测量结果为 x x x x = 例如:正负电子对撞后所产生的事例中,对于每个事例,有下列测量量 : ( ;)  : ( ) 复杂假设含未定参数简单假设无未定参数 f x f x   t x 。，， x ，使得成为精简后的数据样本不失去甄别各种假设能力的条件下因此常常构造低维的统计检验在通常情况下很难处理多维的问题 ( ) ,   0 1 那么此时的统计量 ( | ), ( | ),... t g t H g t H 具有概率密度函数

拒绝域、第一与第二类误差考虑统计检验量t服从g(|HD,g(|H1)g() 定义拒绝域使得H假设为真时,t不大可能接受H0拒绝H0 发生例如,在上述情况下,t≥tn g(t Hi) 如果观测量t在拒绝域时拒绝H 否则接受H0 假若H为真,但被拒绝的可能性构成第一类误差 a=[g(t|H0)dt(显著水平) 假若接受H,但实际情况却是H为真的可能性构成第二类误差 B=」g(1H1)(1B=功效) 2021-01-29

2021-01-29 7 拒绝域、第一与第二类误差 0 1 0 ( | ) ( | , ,.. , t g t H g t H ) . H t 考虑统计检验量服从定义拒绝域使得假设为真时，不大可能发生 ( | ) H0 g t ( | ) H1 g t 接受H0 拒绝H0   = cut t g(t | H )dt  0 − = cut t g(t | H )dt  1 (1- =功效) (显著水平) g(t) t cut t cut 例如，在上述情况下，t  t 0 0 , , obs t H H 如果观测量在拒绝域时拒绝否则接受。 0 假若H 为真,但被拒绝的可能性构成第一类误差 0 1 假若接受H H ,但实际情况却是为真的可能性构成第二类误差

例子:选择不同粒子束包含K/m粒子的束流穿过2厘米厚的闪烁体,根据电离能损的大小可以用来进行粒子鉴别。构造能量沉积测量量t,并假设只有两种可能 H0=兀(信号 g(t h) H1=K(本底) 0g=048(030) 通过要求tau来选择x粒子, Gx=0.30(0.18) g( ho) 选择效率为 K cut 8 g(t dt=1-a πt g(t kdt=B cut K 松选择:效率很高,但K本底高严选择:信号样本纯,但效率低丌的份额an可从t分布估计f(t2an)=ang(t|)+(1-an)g(t|K) 2021-01-29

2021-01-29 8 例子:选择不同粒子一束包含K/ 粒子的束流穿过2厘米厚的闪烁体，根据电离能损的大小可以用来进行粒子鉴别。构造能量沉积测量量 t，并假设只有两种可能 K  H0=  (信号) H1= K (本底) t g(t) tcut 1 g t H ( | ) 0 通过要求 t<tcut 来选择  粒子， g t H ( | ) 选择效率为 ( | ) 1 ( | ) cut cut t K t g t dt g t K dt       − + = = − = =   松选择：效率很高，但 K 本底高；严选择：信号样本纯，但效率低。  的份额 a 可从 t 分布估计 f t a a g t a g t K ( ; ) ( | ) (1 ) ( | )    = + − 

粒子鉴别的概率问题对于一个具有测量值t的粒子,如何估计是K还是x的概率? h(K|) g(|K) axg(t k)+ag( r) 贝叶斯定理 h(|t) g(|m) axg(t k)+ag(t T 对于贝叶斯论者:上式为粒子是K或x的可信程度 →两种解释对于频率论者:给定t条件下,粒子是K或x的比率均有道理通常情况下,需要给出选择样本的纯度 N,(t<tcut ∫ans(t∫-Mx))t N (Lto [@8(t )+(1-a)g(t K)]dt 丌粒子在区间(-∞,tn]的概率注意:h(m)有时会被解释为检验统计量。 2021-01-29

2021-01-29 9 粒子鉴别的概率问题对于一个具有测量值t 的粒子，如何估计是K 还是  的概率？ ( | ) ( | ) ( | ) ( | ) ( | ) ( | ) ( | ) ( | )        a g t K a g t a g t h t a g t K a g t a g t K h K t K K K + = + = 贝叶斯定理通常情况下，需要给出选择样本的纯度 ( | ) ( | ) ( ) ( ) ( ) [ ( | ) (1 ) ( | )] ( ) ( , ] cut cut cut cut t t cut t t all cut cut N t t a g t dt h t f t dt p N t t a g t a g t K dt f t dt t          − − − −  = = =  + − = −     粒子在区间的概率注意: h(|t) 有时会被解释为检验统计量。对于贝叶斯论者：上式为粒子是 K 或  的可信程度对于频率论者：给定 t 条件下，粒子是 K 或  的比率两种解释均有道理

纽曼-皮尔森引理与拒绝域考虑一个多维检验统计量(t1,…,tm),有信号假设H与本底假设H。问题:如何选择一个最佳的拒绝域或者cut? 纽曼-皮尔森引理:在给定效率条件下,要得到最高纯度的信号样本,或者在给定的显著水平下得到最高的功效,可以选择下列接受域来实现 g(t ho) 0>c=用以决定效率的常数 g(t HD 对于不含未定参量的最优化一维检验统计量, r=8(/ 简单假设H0与H1的似然之比 g(|H1) 实际应用中,P最好是单值函数。 2021-01-29 10

2021-01-29 10 纽曼- 皮尔森引理与拒绝域考虑一个多维检验统计量 t=(t1,…,tm) ，有信号假设 H0 与本底假设 H1 。问题：如何选择一个最佳的拒绝域或者 cut？纽曼-皮尔森引理：在给定效率条件下，要得到最高纯度的信号样本，或者在给定的显著水平下得到最高的功效，可以选择下列接受域来实现用以决定效率的常数 ( | ) ( | ) 1 0  c = g t H g t H   对于不含未定参量的最优化一维检验统计量， ( | ) ( | ) 1 0 g t H g t H r   = 简单假设 H0 与 H1 的似然之比实际应用中，r 最好是单值函数

点击进入文档下载页（PPT格式）

共49页，可试读17页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录