吉林大学精品课>>专门水文地质学>>教材>>专门水文地质学 §8.5相关分析法 地下水资源预报中,经常碰到两种类型的变量关系。一类是确定性的函数关系,如一口井的抽水量和水位降这两个变量关系,就满足一一对应的 函数关系。另一类是非确定性的依赖关系,如一个开采区的开采量和降深的关系,虽然是相互依赖的,降深大开采量也多,但变量关系不是确定的,对 应同样降深的开采量不一定完全相等,找不到任何函数可以表示这类变量关系。此外,开采量和降雨量的关系,开采量和地表水侧渗量或灌水回渗量的 关系等,也都有类似的性质,这类既有依赖又不确定的变量关系,统称为相关关系 相关分析法就是研究上述变量的相关关系,建立回归方程,并用来预报开采量的方法。严格说,研究随机变量和确定变量之间的相关关系称为回归 分析,研究随机变量和随机变量之间的相关关系才称为相关分析。为了简单,以后不加以区分,统称为相关分析 相关分析法的适用范围很广,只要在具备多年观测资料地区,无论水文地质条件多么复杂,条件是否查清,都可建立回归方程进行预报,用回归方 程预报的效果,一般来说预报系列较短精度较高,系列较长则精度下降,但对较长系列,可以采用不断校正方程,不断延长系列的逐步预报法 根据研究的变量数目和相关性质不同,可分为一元线性相关分析,多元线性相关分析,多元非线性相关分析,最后简介常用的逐步回归分析法 元线性相关分析 设有两个变量Y和X,存在前述的相关关系,对这两个变量进行n次独立观测,得一组观测值 (X,Yt),t=1、2、3…n 如用这组观测值在直角坐标纸上做散点图,点的分布呈直线趋势时,则表示变量Y和X呈线性相关,现用Y的平均状态配一直线方程 这就是Y对X的回归方程,b,b称为回归系数,是待定值
1 吉林大学精品课>>专门水文地质学>>教材>>专门水文地质学 §8.5 相关分析法 在地下水资源预报中,经常碰到两种类型的变量关系。一类是确定性的函数关系,如一口井的抽水量和水位降这两个变量关系,就满足一一对应的 函数关系。另一类是非确定性的依赖关系,如一个开采区的开采量和降深的关系,虽然是相互依赖的,降深大开采量也多,但变量关系不是确定的,对 应同样降深的开采量不一定完全相等,找不到任何函数可以表示这类变量关系。此外,开采量和降雨量的关系,开采量和地表水侧渗量或灌水回渗量的 关系等,也都有类似的性质,这类既有依赖又不确定的变量关系,统称为相关关系。 相关分析法就是研究上述变量的相关关系,建立回归方程,并用来预报开采量的方法。严格说,研究随机变量和确定变量之间的相关关系称为回归 分析,研究随机变量和随机变量之间的相关关系才称为相关分析。为了简单,以后不加以区分,统称为相关分析。 相关分析法的适用范围很广,只要在具备多年观测资料地区,无论水文地质条件多么复杂,条件是否查清,都可建立回归方程进行预报,用回归方 程预报的效果,一般来说预报系列较短精度较高,系列较长则精度下降,但对较长系列,可以采用不断校正方程,不断延长系列的逐步预报法。 根据研究的变量数目和相关性质不同,可分为一元线性相关分析,多元线性相关分析,多元非线性相关分析,最后简介常用的逐步回归分析法。 一、一元线性相关分析 设有两个变量 Y 和 X,存在前述的相关关系,对这两个变量进行 n 次独立观测,得一组观测值: (Xt,Yt),t=1、2、3……n 如用这组观测值在直角坐标纸上做散点图,点的分布呈直线趋势时,则表示变量 Y 和 X 呈线性相关,现用 Y 的平均状态配一直线方程: Y = b + bx 0 ˆ (8-17) 这就是 Y 对 X 的回归方程,b0,b 称为回归系数,是待定值
若使上式成为最佳的配合直线,可用最小二乘法确定b和b值。为此,取全部观测值Y与H=b+bx,的偏差平方和 △=∑(-)2=∑(-b-bx,)2①为最小。这样确定b、b后配出的直线。同全部观测值(xY)的偏差将是一切直线中最小的一条,或 者说,它是一切直线中同全部观测值最靠近的 代表X和Y之间的变化规律,其精度可由式①算出的△的最小值来代表,在后面检验回归 方程的效果时将用到这一点 因为Δ是b和b的二次函数,又是非负值,故其最小值总是存在的。按数学分析中的极值原理,取△关于b和b的偏导数,并令导数等于零 a=-2S(x-b-bX)=0 b=2(r-h-bx)x,=0 ∑表示对从1到求和,上式也可改写成: ∑(y1-),)=0 解方程组②,得回归系数 b=Y-bX 式中:=1∑x,和=1∑,为样本的算术平均值,反映样本的平均水平:Sxy
2 若 使 上 式 成 为 最 佳 的 配 合 直 线 , 可 用 最 小 二 乘 法 确 定 b0 和 b 值 。 为 此 , 取 全 部 观 测 值 Yt 与 Yt = b0 + bXt ˆ 的 偏 差 平 方 和 2 0 1 2 1 ) ( ) ˆ ( t n t t t n t = Yt −Y = Y − b − bX = = ① 为最小。这样确定 b0、b 后配出的直线。同全部观测值(Xt,Yt)的偏差将是一切直线中最小的一条,或 者说,它是一切直线中同全部观测值最靠近的一条,所以最能代表 X 和 Y 之间的变化规律,其精度可由式①算出的Δ的最小值来代表,在后面检验回归 方程的效果时将用到这一点。 因为Δ是 b0 和 b 的二次函数,又是非负值,故其最小值总是存在的。按数学分析中的极值原理,取Δ关于 b0 和 b 的偏导数,并令导数等于零: 2 ( 0 ) 0 0 1 = − − − = = t n t Yt b bX b 2 ( 0 ) 0 1 = − − − = = t t n t Yt b bX X b = n t 1 表示对从 1 到求和,上式也可改写成: ) 0 ˆ ( 1 − = = t n t Yt Y ) 0 ˆ ( 1 − = = t t n t Yt Y X 解方程组②,得回归系数: b0 = Y − bX XX XY S S b = 式中: = = n t Xt n X 1 1 和 = = n t Yt n Y 1 1 ,为样本的算术平均值,反映样本的平均水平;SXY ② ③ ④
和Sx为变量的协方差,S=x,-1②x∑)=∑x1-xXx-Sx=x2-∑x)=∑(x,-x 把④式代入(8-17)式,即得到要求的一元线性回归方程,也可简写成下列形式 予-x=bX-x) 这说明,对于一组样本观测值(X,)来说,回归方程是一条通过散点图几何重心(X,F)的直线,b是直线的斜率,明确这一点,对做散点图有帮 但是,建立的回归方程能否正确反映Y和ⅹ的变化规律,不能肯定。因为用最小二乘法建立回归方程时并没有用到Y和Ⅹ必然存在线性相关的假 定,即使观测值在散点图上呈现完全散乱的点子,没有线性相关,同样可以建立一个回归方程,只是这种方程毫无价值而已。所以还要解决两个问题 ①变量之间的线性相关是否存在,即变量的相关程度问题:②用回归方程预报时,能有多大的随机误差,即预报的精度问题。这是检验回归方程有无实 际价值的两个重要问题。 为了建立检验标准,我们从方差分析着手。把观测值Y1对其平均值Y的总偏差平方和进行分解: S8=∑(-)2=∑(-)+(-Y=∑(,-F4S(-i 最后的等式,是由于交积差为零。由③式可知: ∑(x-)X2,-Y)=∑(x-)b0+bX,-)=(b-∑(x1-1,)+b2(,-)),=0于是得分解式及其自由度为 ,自由度fe=n-1 S回=2(-Y),自由度f=1(自变量个数)
3 和 SXX 为变量的协方差, ( )( ) ( )( ) 1 1 1 1 1 X Y X X Y Y n S X Y t n t t n t t n t t t n t XY = t − = − − = = = = 2 1 2 1 1 2 ( ) ( ) 1 X X X n S X n t t n t t n t XX = t − = − = = = 。 把④式代入(8-17)式,即得到要求的一元线性回归方程,也可简写成下列形式: ( ) Y ˆ − X = b X − X (8-18) 这说明,对于一组样本观测值 ( , ) Xt Yt 来说,回归方程是一条通过散点图几何重心 (X,Y ) 的直线,b 是直线的斜率,明确这一点,对做散点图有帮 助。 但是,建立的回归方程能否正确反映 Y 和 X 的变化规律,不能肯定。因为用最小二乘法建立回归方程时并没有用到 Y 和 X 必然存在线性相关的假 定,即使观测值在散点图上呈现完全散乱的点子,没有线性相关,同样可以建立一个回归方程,只是这种方程毫无价值而已。所以还要解决两个问题: ①变量之间的线性相关是否存在,即变量的相关程度问题;②用回归方程预报时,能有多大的随机误差,即预报的精度问题。这是检验回归方程有无实 际价值的两个重要问题。 为了建立检验标准,我们从方差分析着手。把观测值 Yt 对其平均值 Y 的总偏差平方和进行分解: 2 1 2 1 2 1 2 1 ) ˆ )] ( ) ( ˆ ) ( ˆ ( ) [( = = = = = − = − + − = − + − n t t t n t t t t n t t n t S总 Yt Y Y Y Y Y Y Y Y Y 最后的等式,是由于交积差为零。由③式可知: ) 0 ˆ ) ( ˆ )( ) ( ) ( ˆ ) ( ˆ )( ˆ ( 1 1 0 0 1 1 − − = − + − = − − + − = = = = = t t n t t t n t t t t n t t t t n t Yt Y Y Y Y Y b bX Y b Y Y Y b Y Y X 于是得分解式及其自由度为 S 总=S 回+S 余 ⑤ 2 1 ( ) = = − n t S总 Yt Y ,自由度 f 总=n-1, 2 1 ) ˆ ( = = − n t S回 Yt Y ,自由度 f 回=1(自变量个数)
S=∑(-,),自由度f=n2(取样组数减去两个变量个数) 求说偏平方和是由部分组成的,二是Su为平方和表示由量x取值不起的Y值的签其大小反喷了变量之网的相 测因素 制因素等 预报精 分别确定相关程度和预报精度的检验标准 (1)变量之间的相关程度 取S在S中所占的比例大小,作为衡量变量之间相关程度的数量指标 r称为相关系数,把Y1=b0+bX,代入S中,同时利用④式,可得r的计算式 x√S√Sx 式中:Sn=∑(X-)2=S 0≤H≤1,r=0时,表示Y和x没有线性相关,观测值在散点图上呈散乱点子:也可能存在非线性相关,散点图呈曲线趋势。r=1时,表示Y和Z 呈线性函数关系,所有观测值都应落在同一直线上。0<<1,表示Y和X存在线性相关。H越大线性相关越密切,观测值在散点图上越靠近配合直线 的两侧分布:越小则线性相关越微弱,观测值在散点图上越远离配合直线
4 2 1 ) ˆ ( = = − n t S余 Yt Yt ,自由度 f 余= n-2 (取样组数减去两个变量个数) 式⑤说明,总偏差平方和是由两部分组成的。一是 S 回,称为回归平方和,表示由变量 X 取值不同引起的 Y 值的差异,其大小反映了变量之间的相 关程度;二是 S 余,称剩余平方和,表示由观测因素和未加控制因素等随机误差引起的 Y 值的差异,其大小反映了随机误差对预报精度的影响。据此, 可分别确定相关程度和预报精度的检验标准: ⑴ 变量之间的相关程度 取 S 回在 S 总中所占的比例大小,作为衡量变量之间相关程度的数量指标: 总 回 S S r = r 称为相关系数,把 Yt = b0 + bXt 代入 S 回中,同时利用④式,可得 r 的计算式: = = = = − − n t t n t t Y Y Y Y r 1 2 1 ( ) ) ˆ ( = = = − − n t t n t t Y Y X X b 1 2 1 ( ) ) ˆ ( XY XX XY S S S (8-19) 式中: S Y Y S总 N T YY = t − = = 2 1 ( ) 0 r 1,r = 0 时,表示 Y 和 X 没有线性相关,观测值在散点图上呈散乱点子;也可能存在非线性相关,散点图呈曲线趋势。r=1 时,表示 Y 和 Z 呈线性函数关系,所有观测值都应落在同一直线上。 0 r 1,表示 Y 和 X 存在线性相关。 r 越大线性相关越密切,观测值在散点图上越靠近配合直线 的两侧分布; r 越小则线性相关越微弱,观测值在散点图上越远离配合直线
根据(819)式计算的值,只要在0-1区间就表示变量之间存在线性相关,但只要川值大到一定程度时才有明显的相关关系。那么团究竞要多大时Y 和ⅹ之间才有明显的线性关系?这就必须对相关系数进行显著性检验。为此,构造统计量: 把Y=b+b代回S=中,再利用④和⑤式,得: Sa=∑(-Y)=∑(b+bX1-Y)=b2∑ S余=Sg-SF=SYY(1-r2) 代入F式中得计算式: (n-2) 上式服从自由度为1和n2的F分布。在给定显著性水平a下,把计算的F值同附表I中达到显著时的临界值F(L,n-2)做比较,若F>F(1,n-2) 则说明在α水平上两变量之间的线性关系是显著的,否则说明线性关系不显著 由(8-20)式知,F和r存在一一对应关系,按F分布表中的临界值可以求出相应r的临界值,如附表Il因此,在实际检验时,也可用(8-19)式 计算的r值同附表Ⅱ的临界值直接做比较,若r超过表Ⅱl的临界值可认为变量之间的线性关系是显著的,反之,低于临界值则认为线性关系不显著 所谓显著性水平αo是指做出“显著”这个结论时发生判断错误的可能性。如α=0.05时,表示判断错误的可能性不超过5%:a=001时,这种可能 性不超过1%。检验时选取的a值越小,检验越严格,相应的要求r值就越大。例如,n=12时,如果计算的≥0576,则说明r值在a=05的水平上 概率或可信度为9%)显著。如把可信度提高到9%,计算的相关系数有H20708,则说明在a=001水平上显著。a越小,r的显著程度越高
5 根据(8-19)式计算的值,只要在 0~1 区间就表示变量之间存在线性相关,但只要 r 值大到一定程度时才有明显的相关关系。那么 r 究竟要多大时 Y 和 X 之间才有明显的线性关系?这就必须对相关系数进行显著性检验。为此,构造统计量: ( ) 余 回 余 余 回 回 2 / / = = n − S S S f S f F 把 Yt = b0 + bXt ˆ 代回 S 回中,再利用④和⑤式,得: YY n t t n t t n t S Yt Y b bX Y b X X r S 2 2 1 2 2 1 0 2 1 ) ( ) ( ) ˆ = ( − = + − = − = = = = 回 S 余=S 总-S 回=SYY(1-r 2 ) ⑥ 代入 F 式中得计算式: ( 2) 1 2 2 − − = n r r F (8-20) 上式服从自由度为1 和n-2的F分布。在给定显著性水平α下,把计算的F值同附表I中达到显著时的临界值 F (1,n − 2) 做比较,若 F F (1,n − 2) , 则说明在α水平上两变量之间的线性关系是显著的,否则说明线性关系不显著。 由(8-20)式知,F 和 r 存在一一对应关系,按 F 分布表中的临界值可以求出相应 r 的临界值,如附表 II。因此,在实际检验时,也可用(8-19)式 计算的 r 值同附表 II 的临界值直接做比较,若 r 超过表 II 的临界值可认为变量之间的线性关系是显著的,反之,低于临界值则认为线性关系不显著。 所谓显著性水平α0 是指做出“显著”这个结论时发生判断错误的可能性。如α=0.05 时,表示判断错误的可能性不超过 5%;α=0.01 时,这种可能 性不超过 1%。检验时选取的α值越小,检验越严格,相应的要求 r 值就越大。例如,n=12 时,如果计算的 r 0.576 ,则说明 r 值在α=0.05 的水平上 (概率或可信度为 95%)显著。如把可信度提高到 99%,计算的相关系数有 r 0.708 ,则说明在α=0.01 水平上显著。α越小,r 的显著程度越高,变
量之间的线性关系越密切,所建的回归方程才越有价值 (2)回归方程的预报精度 已知S表示随机误差,即观测值并不完全落在配合直线上,而是散布在它的两侧所存在的误差。所以S籴越小,用回归方程预报的效果越好,这里 的S金,实际上就是前面最小二乘法建立回归方程时所给出的最小的那个Δ值。因此,可用均方差 作为衡量回归方程预报效果好坏的指标。余也称为剩余标准差,它表示观测值偏离配合直线的平均距离,把⑥式代入上式得余的计算 (Y-)2/n-2.Ⅵ1-r2= (8-2 这样计算的σ余越小预报的效果越好,但究竟多小效果最好?仍可用显著性检验来说明 所谓预报问题,就是在一定的显著性水平α下寻找一个偏差δ,使得按给定的ⅹ预报Y时的观测值,以(1-a)的概率落在(Y6,Y+6)的区间 P δ<Y<F+d}=1-a 6和余有如下的一般关系: 6=F(,n-2)o斜++ 1.(X-X)2 这说明,在一定的样本观测值和显著性水平下,给出的X越接近X,6越小。如在(X,Y)平面上划成曲线,则y±δ形成一个包围回归直线的
6 量之间的线性关系越密切,所建的回归方程才越有价值。 (2) 回归方程的预报精度 已知 S 余表示随机误差,即观测值并不完全落在配合直线上,而是散布在它的两侧所存在的误差。所以 S 余越小,用回归方程预报的效果越好,这里 的 S 余,实际上就是前面最小二乘法建立回归方程时所给出的最小的那个Δ值。因此,可用均方差 余 = S余 /(n − 2) 作为衡量回归方程预报效果好坏的指标。 余 也称为剩余标准差,它表示观测值偏离配合直线的平均距离,把⑥式代入上式得 余 的计算式: 2 2 1 2 1 2 ( ) / 2 1 r n S Y Y n r YY n t − − = − − − = = 余 (8-21) 这样计算的 余 越小预报的效果越好,但究竟多小效果最好?仍可用显著性检验来说明。 所谓预报问题,就是在一定的显著性水平α下寻找一个偏差δ,使得按给定的 X 预报 Y 时的观测值,以(1-α)的概率落在(Y-δ, Y+δ)的区间 内,即: PY ˆ − Y Y ˆ + = 1− 而δ和 余 有如下的一般关系: − − = − + + = n t Xt X X X n F n 1 2 2 2 ( ) 1 ( ) (1, 2) 余 1 这说明,在一定的样本观测值和显著性水平下,给出的 X 越接近 X ,δ越小。如在(X,Y)平面上划成曲线,则 Y 形成一个包围回归直线的
带域,两头呈喇叭形,在〓X处带域最窄。因此,如果给岀ⅹ预报Y时,则预报区间越短(X越靠近),带域宽度越窄,说明预报饿精度越高 在实际计算中,n值往往过大,要求的预报区间较短,这时1+-+ ≈1,结果得预报区间的近似式 (x1-X)2 余<<Y+G余=68.3% 这说明,在给出X预报Y时的观测值中,有683%可能落在配合直线两侧各为一个均方差的范围内,或者说观测值Y可能落在Y±余之间的概率 为683%,同样,观测值Y落在Y±20之间的概率为954%,落在Y±3之间的概率为997%,即 P-27<Y<+2}954% P 30余<Y<Y+30余=99 Y±Nσ余称为可信区间。用回归方程预报Y时,σ余越小,可信区间越窄,预报的精度越高。当r=1时,Y和X呈函数关系,这时可余=0,表示 所有观测值都落在配合直线上。 控制是预报的反问题。即在一定概率P下,要求Y在区间(Y1,Y2)内取值时,X应控制的范围或求出相应的X1和X2,例如,概率为683%,如 1=Y-G余=b+bX1-0余 2=+G余=b+bX2+ 则给出了Y1和Y2,就可解出X1和X2作为控制X的上下限
7 带域,两头呈喇叭形,在 X = X 处带域最窄。因此,如果给出 X 预报 Y 时,则预报区间越短(X 越靠近 X ),带域宽度越窄,说明预报饿精度越高。 在实际计算中,n 值往往过大,要求的预报区间较短,这时 1 ( ) 1 ( ) 1 1 2 2 − − + += n t Xt X X X n ,结果得预报区间的近似式: PY ˆ − 余 Y Y ˆ + 余 =68.3% 这说明,在给出 X 预报 Y 时的观测值中,有 68.3%可能落在配合直线两侧各为一个均方差的范围内,或者说观测值 Y 可能落在 Y 余 之间的概率 为 68.3%,同样,观测值 Y 落在 Y 2 余 之间的概率为 95.4%,落在 Y 3 余 之间的概率为 99.7%,即: PY ˆ − 2 余 Y Y ˆ + 2 余 =95.4% PY ˆ −3 余 Y Y ˆ + 3 余 =99.7% Y N 余 ˆ 称为可信区间。用回归方程预报 Y 时, 余 越小,可信区间越窄,预报的精度越高。当 r=1 时,Y 和 X 呈函数关系,这时 余 =0,表示 所有观测值都落在配合直线上。 控制是预报的反问题。即在一定概率 P 下,要求 Y 在区间(Y1,Y2)内取值时,X 应控制的范围或求出相应的 X1 和 X2,例如,概率为 68.3%,如 取 1 = − 余 = 0 + 1 − 余 ˆ Y Y b bX 2 = + 余 = 0 + 2 + 余 ˆ Y Y b bX 则给出了 Y1 和 Y2,就可解出 X1 和 X2 作为控制 X 的上下限
〈实例》,某水源地已有多年的开采历史。经分析,取其中十年的开采资料进行相关分析。为了扩大开采,要求预报降深S=26m时的开采量Q。原始 数据和计算数据均列入表(8-10)中,表中采用的符号QY,S~X 根据表中的数据,按下列顺序预报 首先,计算相关系数,按(8-19)求得 0.997 √808×5171 按n=10,查附表Ⅱ知,在显著性水平a=001时相关系数的临界值为0.765。显然,计算值0.997)0.765,所以Q和S之间的线性关系是显著的 其次,建立预报方程,进行预报。按④式计算回归系数 (S-SQ2-)2038 ∑(S.-s)25771 把B值和Q=73,S=198代入(8-18)式,整理后得回归方程 Q=-5.03+3941×S 代入S=26m,得预报的开采量Q=9743×10m3 最后,检验预报精度。按(8-21)式计算剩余均方差 表(8-10) 年份开采资料 计算数据
8 〈实例〉,某水源地已有多年的开采历史。经分析,取其中十年的开采资料进行相关分析。为了扩大开采,要求预报降深 S=26m 时的开采量 Q。原始 数据和计算数据均列入表(8-10)中,表中采用的符号 Q~Y,S~X。 根据表中的数据,按下列顺序预报: 首先,计算相关系数,按(8-19)求得: 0.997 808 51.71 203.8 ( ) ( ) ( )( ) 2 2 = = − − − − = = S S Q Q S S Q Q S S S r t t t t QQ S S S Q 按 n=10,查附表 II 知,在显著性水平α=0.01 时相关系数的临界值为 0.765。显然,计算值 0.997〉0.765,所以 Q 和 S 之间的线性关系是显著的。 其次,建立预报方程,进行预报。按④式计算回归系数。 3.941 57.71 203.8 ( ) ( )( ) 2 = = − − − = = S S S S Q Q S S b t t t SS SQ 把 B 值和 Q = 73, S = 19.8 代入(8-18)式,整理后得回归方程: Q = −5.03 + 3.941 S 代入 S=26m,,得预报的开采量 Q=97.43×104m3 /d。 最后,检验预报精度。按(8-21)式计算剩余均方差 1 0.778 2 ( ) 2 2 − = − − = r n Qt Q 余 表(8-10) 年份 开采资料 计算数据
(ma-0 ) 195960 10.89 16.5-13 3.316910.89 19626314.7-10-2.31005.2 总和7301979 51.67 203.8 概率为68.3%,则有 43-078<Q<9743+077}=68% 这说明,预报S=26m的开采量时,Q的观测值将落在9665-982区间的概率为683%,也就是实测开采量将在宽约156×104m3d的带形区内波动 所以回归方程的预报精度是足够的 二、多元线性相关分析 地下水资源总是在多种因素影响下形成的,所以在资源评价中采用多元线性相关分析的 1关分析为好。参与多元相关的各种变量可按当地具体条件确定。如在潜水区,可以考虑开采量和潜水位、开采面积、历年的 蒜 发量等各变量的相关关系:在承压水区,可以建立开采量和水位、侧渗补给量、回灌量、开采时间等的相关关系:矿井疏干区,可以建立涌水量和地下
9 Qt (104m3 /d) St (m ) Qt − Q St − S 2 (Q Q) t − 2 (S S ) t − (Q Q ) t − (S S ) t − 1959 60 16.5 -13 -3.3 169 10.89 42.9 1960 67 18 -6 -1.8 36 3.24 10.8 1961 60 16.5 -13 -3.3 169 10.89 42.9 1962 63 14.7 -10 -2.3 100 5.29 23 1970 80 21.5 7 1.7 49 2.89 11.9 1971 80 21.9 7 2.1 49 4.41 14.7 1972 78 21 5 1.2 25 1.44 6 1973 76 20.5 3 0.7 9 0.49 2.1 1974 82 22 9 2.2 81 4.84 19.8 1975 84 22.5 11 2.7 121 7.29 29.7 总和 730 197.9 808 51.67 203.8 平均 73 19.8 如取概率为 68.3%,则有 P97.43−0.778 Q 97.43+ 0.778= 68.3% 这说明,预报 S=26m 的开采量时,Q 的观测值将落在 96.65-98.2 区间的概率为 68.3%,也就是实测开采量将在宽约 15.6×104m3 /d 的带形区内波动, 所以回归方程的预报精度是足够的。 二、多元线性相关分析 地下水资源总是在多种因素影响下形成的,所以在资源评价中采用多元线性相关分析的 效果总比一元相关分析为好。参与多元相关的各种变量可按当地具体条件确定。如在潜水区,可以考虑开采量和潜水位、开采面积、历年的降雨量、蒸 发量等各变量的相关关系;在承压水区,可以建立开采量和水位、侧渗补给量、回灌量、开采时间等的相关关系;矿井疏干区,可以建立涌水量和地下
水位、降雨量、巷道长度等的相关关系:在泉群地区,可以建立泉群流量和前一年的流量、前几年的降雨量、蒸发量等的相关关系。下面简介多元线性 相关的原理和应用 设有因变量Y和自变量X1(i=1,2,3…m)。对Y和X进行n次观测,得一组观测值为(Xm,X2 如果Y和X1之间存在线性相关,则可配一线性回归方程: b+b1X1+b2X2+…bnX (8-22) 式中:bo,b,i=1,2,3……m,为回归系数,是待定值 为使上式成为最佳的配合直线,同一元相关分析法一样,可用最小二乘法确定m+1个回归系数。因此,取全部观测值Y和y的偏差平方和 △=∑0-,)2=∑[-(+bx+bX2+…bX) 达到最小。按数学分析中的极值原理,首先取 0=2[-(4+X+…bXm)=0 b 由此解得 h=2-(∑X)=-(x+hx2+…bx) 式中:p1 y I>x 把b代入⑦式,整理后得 =∑x-F)-b(X-X)-b2(x2-x2)-…bn(Xm-x
10 水位、降雨量、巷道长度等的相关关系;在泉群地区,可以建立泉群流量和前一年的流量、前几年的降雨量、蒸发量等的相关关系。下面简介多元线性 相关的原理和应用。 设有因变量 Y 和自变量 Xi( i=1,2,3……m)。对 Y 和 Xi 进行 n 次观测,得一组观测值为(X1t , X2t , ……Xmt , Yt) , t=1,2,3……n。 如果 Y 和 Xi 之间存在线性相关,则可配一线性回归方程: Y = b0 + b1X1 + b2X2 +bm X m ˆ (8-22) 式中:b0, bi, i=1,2,3……m , 为回归系数,是待定值。 为使上式成为最佳的配合直线,同一元相关分析法一样,可用最小二乘法确定 m+1 个回归系数。因此,取全部观测值 Yt 和 Yt ˆ 的偏差平方和 ( ) = = = − = − + + + n t t t t m mt n t Yt Yt Y b b X b X b X 1 2 0 1 1 2 2 2 1 ) ˆ ( ⑦ 达到最小。按数学分析中的极值原理,首先取 2 ( ) 0 1 0 1 1 0 = − − + + = = n t Yt b b X t bm X mt b 由此解得 = − = = n t n t Yt bi Xit n b 1 1 0 ( ) 1 ( ) = Y − b1X1 + b2X2 +bm X m ⑧ 式中: = = n t Yt n Y 1 1 , = = = n t i Xit i m n X 1 , 1,2 1 ; 把 0 b 代入⑦式,整理后得: 2 1 1 1 1 2 2 2 ( ) ( ) ( ) ( ) = = − − − − − − − n t Yt Y b X t X b X t X bm X mt X m