在给定协变量V 的情况下可忽略性假设成立，那么在给定倾向值时可忽略性假设也

正在加载图片...

在给定协变量V的情况下可忽略性假设成立，那么在给定倾向值时可忽略性假设也成立，因此可以用倾向值替代协变量在因果推断中进行分层或匹配，从而避免了从众多协变量中遴选最适组合的困难。文献[25]中给定研究对象集合i∈L,2,,,将研究对象i根据倾向值得到的匹配集合定义为： J)={U=1,2,,n:X,=1-X；∑6lπ(V)-π(W)π(W)-π(W)B≤M0。 &X=I-X 其中6}是示性函数，当括号中的条件满足时取值1，否则取值0。M为整数，代表每一研究对象的匹配数，例如，M=1时得到1：1匹配。这个定义允许在构造匹配集合过程中放回已被使用的个体，并用在其他个体的匹配集合中，平均因果效应的匹配估计为：匹片产--立)° 如果在实际运算中无从得知真实的倾向值，那么可以首先根据观察数据进行预先估计，然后再用估计所得的倾向值做匹配，常用的基于倾向值匹配的方法包括回归[2]和决策树27等。 4.3.2逆概率加权除匹配法之外，逆概率加权估计方法[2也是一种基于倾向值的方法由汗混因素的存在，干预组和对照组的协变量分布不同，会导致内生选择性偏差。也就是说，预分配机制与观测数据中的协变量有关，逆概率加权就是消除内生选择性偏差最有效的方法通过给观测数据中的每个研究对象分配适当的权重，可以创建一个干预组与对照组具有相份布的伪总体。样本重加权方法涉及到的关键概念一一均衡得分(Balancing Score)，经均衡得分处理后的协变量与干预分配机制相独立，倾向值就是均衡得分中的一种。逆概率加权(Inverse Propensity Weighting,PW 将权重P分配给每个研究对象： w=X/π(x)+(1-X)/(1-π(x).其中，X表示分配机制， t)表示倾向值。文献[29]在重加权后，可以将平均因果效应的逆概率加权估计为：ATE V)-∑1-X)y,1[1-π(W】。文献[30]表明，经不同规模的估计总体研究表明倾向值机制足以消除因可观测到的协变量而产生的偏差；然而在实际估计中，逆概率加权的确性高度依赖倾向值的正确性，一旦倾向值计算出现偏差就会严重影响逆概率加权的准确性：为了消除这种影响，罗宾斯等人在文章中提出了双稳健估计，将逆概率加权与结果回归相结合，为因果关系估计提供双保险。 4.3.2分层方法分层方法(Stratification)又被称为子分类o,，是调整混杂因素的代表性方法之一。这种方法通过将整个总体划分为同质的子分层(bo©k)来调整因干预组和对照组之间差别造成的偏差，理想状况下每个子层中干预组利对照组在协变量前提下的特定观测值是相似的，因此，同个子层中的研究对象可以看作遵循随机府照试验的分配机制，也可以依据随机对照试验中的计算方法计算各子层内的平均因果效应 ATE stra ∑g正0-)。其中，假设总体中划分了n个子层，q①)=N)1N为第，个子层中的例究对像个数在总体中所占的比重，和和，0分别表示第，个子层中干预结果和对照结果的平均值。与直接计算干预组和对照组结果差值的估计方法相比，分层方法显著降低了平均因果估计的偏差，但如何确定分层方式又是另一个研究要点。等概率(Equal-frequency)方法P4通过倾向值对总体进行分层，使得协变量在每一个子层中具有相等的倾向值，总体的平均因果效应则通过每个子层中平均因果效应的加权平均进行估计。然而这种方法会在某些权重过高或过低的子层中导致较大的方差，针对这类问题，文献[31]提出了一种对倾向值分层得到的子层进行逆概率加权的估计方法，降低了等概率方法中出现的高方差问题。 5结构因果模型除潜在结果模型外，因果推断中使用最多的一类模型就是结构因果模型(Structure Causal在给定协变量V 的情况下可忽略性假设成立，那么在给定倾向值时可忽略性假设也成立，因此可以用倾向值替代协变量在因果推断中进行分层或匹配，从而避免了从众多协变量中遴选最适组合的困难。文献[25]中给定研究对象集合i n {1, 2,..., }，将研究对象i 根据倾向值得到的匹配集合定义为： : 1 ( ) { 1, 2,..., : 1 ; {| ( ) ( ) | | ( ) ( ) |} } k j j i i k i j k X X J i j n X X V V V V M                 。其中{ } 是示性函数，当括号中的条件满足时取值 1，否则取值 0。 M 为整数，代表每一研究对象的匹配数，例如， M  1 时得到1:1匹配。这个定义允许在构造匹配集合过程中放回已被使用的个体，并用在其他个体的匹配集合中，平均因果效应的匹配估计为： 1 ( ) 1 1 (2 1)( ) n psm i i j i j J i ATE X Y Y n M        。如果在实际运算中无从得知真实的倾向值，那么可以首先根据观察数据进行预先估计，然后再用估计所得的倾向值做匹配，常用的基于倾向值匹配的方法包括回归[26]和决策树[27]等。 4.3.2 逆概率加权除匹配法之外，逆概率加权估计方法[28]也是一种基于倾向值的方法。由于混杂因素的存在，干预组和对照组的协变量分布不同，会导致内生选择性偏差。也就是说，干预分配机制与观测数据中的协变量有关，逆概率加权就是消除内生选择性偏差最有效的方法之一。通过给观测数据中的每个研究对象分配适当的权重，可以创建一个干预组与对照组具有相似分布的伪总体。样本重加权方法涉及到的关键概念——均衡得分（Balancing Score），经均衡得分处理后的协变量与干预分配机制相独立，倾向值就是均衡得分中的一种。逆概率加权（ Inverse Propensity Weighting, IPW ）将权重 w 分配给每个研究对象： w X x X x     / ( ) (1 ) / (1 ( ))   .其中， X 表示分配机制， ( ) x 表示倾向值。文献[29]在重加权后，可以将平均因果效应的逆概率加权估计为： 1 1 / ( ) (1 ) / [1 ( )] n n ipw i i i i i i i i ATE X Y V X Y V           。文献[30]表明，经不同规模的估计总体研究表明倾向值机制足以消除因可观测到的协变量而产生的偏差；然而在实际估计中，逆概率加权的正确性高度依赖倾向值的正确性，一旦倾向值计算出现偏差就会严重影响逆概率加权的准确性；为了消除这种影响，罗宾斯等人在文章中提出了双稳健估计，将逆概率加权与结果回归相结合，为因果关系估计提供双保险。 4.3.2 分层方法分层方法（Stratification）又被称为子分类[10] ，是调整混杂因素的代表性方法之一。这种方法通过将整个总体划分为同质的子分层（block）来调整因干预组和对照组之间差别造成的偏差，理想状况下每个子层中干预组和对照组在协变量前提下的特定观测值是相似的，因此，同个子层中的研究对象可以看作遵循随机对照试验的分配机制，也可以依据随机对照试验中的计算方法计算各子层内的平均因果效应： 1 0 1 ( )[ ( ) ( )] n strat i ATE q i Y i Y i     。其中，假设总体中划分了 n 个子层， q i N i N ( ) ( ) /  为第i 个子层中的研究对象个数在总体中所占的比重， 1Y i( ) 和 0 Y i( ) 分别表示第i 个子层中干预结果和对照结果的平均值。与直接计算干预组和对照组结果差值的估计方法相比，分层方法显著降低了平均因果估计的偏差，但如何确定分层方式又是另一个研究要点。等概率（Equal-frequency）方法[24]通过倾向值对总体进行分层，使得协变量在每一个子层中具有相等的倾向值，总体的平均因果效应则通过每个子层中平均因果效应的加权平均进行估计。然而这种方法会在某些权重过高或过低的子层中导致较大的方差，针对这类问题，文献[31]提出了一种对倾向值分层得到的子层进行逆概率加权的估计方法，降低了等概率方法中出现的高方差问题。 5 结构因果模型除潜在结果模型外，因果推断中使用最多的一类模型就是结构因果模型（Structure Causal 录用稿件，非最终出版稿

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：因果推断三种分析框架及其应用理论体系综述