正在加载图片...
Rato值当'g=1时,基因g的表达水平没有改变,而<1或g>1意味着基因g在 两个条件下存在表达差异,特别是<1表示基因在条件1是下调的,而E>1,表示 在条件1是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超 过一个常数,典型的常数是2,即>2或</2,则认为该基因的表达差异是显著的。 然而,对表达数据仔细考察后可以发现,这样简单的2倍法并不能产生最优的结果,因为 因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用2倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于2就具有生 物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行 确定。 732t检验 于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较 多的是采用假设检验,包括两个条件下的t检验和多个条件下的方差分析( ANOVA) 这里仅仅介绍t检验,关于 ANOVA请参考相应的统计分析书籍 零假语,H0:B=“B2,即假设两个条件下的平均表达水平是相等的,与之对应的备 选假设是 H1:ag1≠“g2 统计量的计算公式如下 (7-6) 其中 ,"为某一条件下的重复实验次 数gy是基因g在第i个条件下第j次重复实验的表达水平测量值。 根据统计量『值,可以得到p值,它表示在零假设成立的情况下,出现该数据的概率。 如果p值小于给定的显著性水平,就拒绝零假设,即认为基因g在两个条件下的表达差异 是显著的。因为在t检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克 服固定倍数阈值方法的一些缺点。然而,对于DNA微阵列数据的t检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数经常 较小,"2=2、3的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得 到的t值就较大,因此会导致较高的假发现率(FDR, False Discovery Rate),即通过t检 验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺 点Ratio 值。当 =1 时,基因 g 的表达水平没有改变,而 <1 或 >1 意味着基因 g 在 两个条件下存在表达差异,特别是 <1 表示基因在条件 1 是下调的,而 >1 ,表示 在条件 1 是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超 过一个常数,典型的常数是 2 ,即 >2 或 <1/2 ,则认为该基因的表达差异是显著的。 然而,对表达数据仔细考察后可以发现,这样简单的 2 倍法并不能产生最优的结果,因为 因子 2 在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用 2 倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于 2 就具有生 物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行 确定。 7.3.2 t 检验 于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较 多的是采用假设检验,包括两个条件下的 t 检验和多个条件下的方差分析( ANOVA ), 这里仅仅介绍 t 检验,关于 ANOVA 请参考相应的统计分析书籍。 零假设为 ,即假设两个条件下的平均表达水平是相等的,与之对应的备 选假设是 。 t 统计量的计算公式如下: (7-6) 其中 , , 为某一条件下的重复实验次 数,Xgij 是基因 g 在第 i 个条件下第 j 次重复实验的表达水平测量值。 根据统计量 值,可以得到 p 值,它表示在零假设成立的情况下,出现该数据的概率。 如果 p 值小于给定的显著性水平,就拒绝零假设,即认为基因 g 在两个条件下的表达差异 是显著的。因为在 t 检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克 服固定倍数阈值方法的一些缺点。然而,对于 DNA 微阵列数据的 t 检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数 经常 较小, =2 、 3 的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得 到的 t 值就较大,因此会导致较高的假发现率 (FDR , False Discovery Rate) ,即通过 t 检 验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺 点
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有