在 t 假设检验中，经常使用的显著性水平是 p =0.01 ，其意思是在零

正在加载图片...

在【假设检验中,经常使用的显著性水平是p=0.01,其意思是在零假设正确的情况下, 从总体中进行100次抽样,允许有1次不满足零假设。对于DNA微阵列实验,检测的基因数目巨大,如果微阵列上有10000个基因,采用p=001,将会有100个基因是由于偶然性而被错误认为是有表达差异显著的。这个数目己经可能对后续的生物学分析产生很大的干扰,从而导致t检验分析结果的不可靠或失去意义为了解决这个问题,可以对t检验进行改进,降低由于分母上方差小而带来的错误,因此对t检验的计算公式修改如下 xgl-xg2 sg +So (8-7) =√a②21{xp-xn+2.!x (8-8) a=(1/n1+1/n2)(n1+n2-2) 假设E的分布是独立于基因表达水平的。因为较低的表达水平会使的值较小,导致 E值变化较大。为了保证独立于基因表达水平,在分母上增加S0,增加S0后可以降低ξ的方差。通过对设计的一组对照样本的分析,可以确定阈值,“大于阈值的基因被认为是表达差异显著的。 73贝叶斯分析由于DNA微阵列数据噪声大、波动大,而且在大量数据的背后还有很多相关变量不能被观察到,因此,贝叶斯方法可以用来分析微阵列表达数据。贝叶斯分析可以简单描述如下: P(MID)=P(D MP(M/P(D) (8-10) 其中,PMD)表示由观测数据集D得到参数化模型M 为真的概率,称为后验概率:P(M)称为先验概率,表示在没有得到任何数据之前所估计的模型M为真的概率; P(DM)是指似然度,表示从模型M得到一个观测数据集D的概率。贝叶斯推断是通过参数估计和模型选择来实现任务的,最常用的方法是最大后验概率(MAP)估计和最大似然 (ML)估计在用贝叶斯方法分析表达数据时,首先假设在给定条件下,一个基因的表达水平测量值是独立的,并满足正态分布。根据经验,这一假设是合理的,特别是表达水平的对数大致服从对数正态分布。对于重复实验,也可以引入伽玛分布、高斯/伽玛混合分布等。一个基因在 t 假设检验中，经常使用的显著性水平是 p =0.01 ，其意思是在零假设正确的情况下，从总体中进行 100 次抽样，允许有 1 次不满足零假设。对于 DNA 微阵列实验，检测的基因数目巨大，如果微阵列上有 10000 个基因，采用 p =0.01 ，将会有 100 个基因是由于偶然性而被错误认为是有表达差异显著的。这个数目已经可能对后续的生物学分析产生很大的干扰，从而导致 t 检验分析结果的不可靠或失去意义。为了解决这个问题，可以对 t 检验进行改进，降低由于分母上方差小而带来的错误，因此对 t 检验的计算公式修改如下：（8-7）（8-8）（8-9）假设的分布是独立于基因表达水平的。因为较低的表达水平会使的值较小，导致值变化较大。为了保证独立于基因表达水平，在分母上增加 S0 ，增加 S0 后可以降低的方差。通过对设计的一组对照样本的分析，可以确定阈值，大于阈值的基因被认为是表达差异显著的。 7.3.3 贝叶斯分析由于 DNA 微阵列数据噪声大、波动大，而且在大量数据的背后还有很多相关变量不能被观察到，因此，贝叶斯方法可以用来分析微阵列表达数据。贝叶斯分析可以简单描述如下：（8-10）其中， P(M|D) 表示由观测数据集 D 得到参数化模型为真的概率，称为后验概率； P(M) 称为先验概率，表示在没有得到任何数据之前所估计的模型 M 为真的概率； P(D|M) 是指似然度，表示从模型 M 得到一个观测数据集 D 的概率。贝叶斯推断是通过参数估计和模型选择来实现任务的，最常用的方法是最大后验概率 (MAP) 估计和最大似然 (ML) 估计。在用贝叶斯方法分析表达数据时，首先假设在给定条件下，一个基因的表达水平测量值是独立的，并满足正态分布。根据经验，这一假设是合理的，特别是表达水平的对数大致服从对数正态分布。对于重复实验，也可以引入伽玛分布、高斯 / 伽玛混合分布等。一个基因

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第七章微阵列芯片