Ratio 值。当 =1 时，基因 g 的表达水平没有改变，而 <1

正在加载图片...

Rato值当'g=1时,基因g的表达水平没有改变,而<1或g>1意味着基因g在两个条件下存在表达差异,特别是<1表示基因在条件1是下调的,而E>1,表示在条件1是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超过一个常数,典型的常数是2,即>2或</2,则认为该基因的表达差异是显著的。然而,对表达数据仔细考察后可以发现,这样简单的2倍法并不能产生最优的结果,因为因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用2倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于2就具有生物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行确定。 732t检验于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较多的是采用假设检验,包括两个条件下的t检验和多个条件下的方差分析( ANOVA) 这里仅仅介绍t检验,关于 ANOVA请参考相应的统计分析书籍零假语,H0:B=“B2,即假设两个条件下的平均表达水平是相等的,与之对应的备选假设是 H1:ag1≠“g2 统计量的计算公式如下 (7-6) 其中 ,"为某一条件下的重复实验次数gy是基因g在第i个条件下第j次重复实验的表达水平测量值。根据统计量『值,可以得到p值,它表示在零假设成立的情况下,出现该数据的概率。如果p值小于给定的显著性水平,就拒绝零假设,即认为基因g在两个条件下的表达差异是显著的。因为在t检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克服固定倍数阈值方法的一些缺点。然而,对于DNA微阵列数据的t检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数经常较小,"2=2、3的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得到的t值就较大,因此会导致较高的假发现率(FDR, False Discovery Rate),即通过t检验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺点Ratio 值。当 =1 时，基因 g 的表达水平没有改变，而 <1 或 >1 意味着基因 g 在两个条件下存在表达差异，特别是 <1 表示基因在条件 1 是下调的，而 >1 ，表示在条件 1 是上调的。在具体应用中，如果一个基因的平均表达水平在两个条件下的变化超过一个常数，典型的常数是 2 ，即 >2 或 <1/2 ，则认为该基因的表达差异是显著的。然而，对表达数据仔细考察后可以发现，这样简单的 2 倍法并不能产生最优的结果，因为因子 2 在不同的表达水平上有相当不同的显著性。对于低表达水平的基因，其信噪比太低，用 2 倍法作为判断条件太宽松，而对于高表达基因，条件又太苛刻，往往小于 2 就具有生物学意义。在具体应用中，并没有明确的阈值，往往根据分析的具体要求由数据分析者自行确定。 7.3.2 t 检验于两个条件下的多次重复实验，为了判断基因的表达差异是否具有显著性，在应用中较多的是采用假设检验，包括两个条件下的 t 检验和多个条件下的方差分析（ ANOVA ），这里仅仅介绍 t 检验，关于 ANOVA 请参考相应的统计分析书籍。零假设为，即假设两个条件下的平均表达水平是相等的，与之对应的备选假设是。 t 统计量的计算公式如下：（7-6）其中，，为某一条件下的重复实验次数,Xgij 是基因 g 在第 i 个条件下第 j 次重复实验的表达水平测量值。根据统计量值，可以得到 p 值，它表示在零假设成立的情况下，出现该数据的概率。如果 p 值小于给定的显著性水平，就拒绝零假设，即认为基因 g 在两个条件下的表达差异是显著的。因为在 t 检验中，两个总体平均值之间的距离被样本的标准差归一化，可以克服固定倍数阈值方法的一些缺点。然而，对于 DNA 微阵列数据的 t 检验的基本问题是，即使用当前的高通量检测技术，实验仍然花费很大或者实验过程很冗长，重复次数经常较小， =2 、 3 的小样本仍然非常普通。由于样本量小，导致总体方差被严重低估，得到的 t 值就较大，因此会导致较高的假发现率 (FDR ， False Discovery Rate) ，即通过 t 检验得到的结果中表达差异不显著的基因数目较多。这样，需要更好的分析方法来克服这些缺点

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第七章微阵列芯片