《生物信息学》课程教学资源（电子讲义）第七章微阵列芯片

随着cDNA微阵列和寡核苷酸芯片(下文没有特别说明时,统称为DNA微阵列)等高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物mrNA 在本章中,基因表达数据特指基于DNA微阵列实验得到的反映mRNA丰度的数据,而不包括基因表达最终产物—蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大, 数据的增长速度更快。

团购合买资源类别：文库，文档格式：PDF，文档页数：27，文件大小：397.92KB

第七章微阵列芯片随着cDNA微阵列和寡核苷酸芯片(下文没有特别说明时,统称为DNA微阵列)等高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物mRNA 在本章中,基因表达数据特指基于DNA微阵列实验得到的反映mRNA丰度的数据,而不包括基因表达最终产物—蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是DNA微阵列能够在生物医学领域中广泛应用的关键原因之一。基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析,可以回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达是细胞状态特异性的,根据它们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌变或应激等)等等。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标是系统生物学( Systems Biology)研究的核心内容。目前,对基因表达数据的分析主要是在个层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,基因表达水平的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的特异基因。采用的分析方法有统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达数据。多采用反向工程的方法。本章首先介绍基因表达数据的来源和预处理方法:然后介绍基因表达数据分析的主要方法,包括表达差异分析、聚类分析和分类等:最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型 71基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度, 这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。检测细胞中mRNA丰度的方法有cDNA微阵列、寡核苷酸芯片、基因表达系列分析( Serial analysis of gene expression,SAGE)、 RT-PCR等。目前,高通量检测基因组mRNA丰度的方法主要是cDNA微阵列、寡核苷酸芯片,它们的原理是相同的,即利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单核苷酸链形成双链,这个过程被称为杂交。基本技术路线是:制备芯片,在一个约1cm2大小的玻璃片上,将称为探针的cDNA或寡核苷酸片段固定在上面:从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析并得到细胞中mRNA丰度的信息 711cDNA微阵列

第七章微阵列芯片随着 cDNA 微阵列和寡核苷酸芯片（下文没有特别说明时，统称为 DNA 微阵列）等高通量检测技术的发展，我们可以从全基因组水平定量或定性检测基因转录产物 mRNA 。在本章中，基因表达数据特指基于 DNA 微阵列实验得到的反映 mRNA 丰度的数据，而不包括基因表达最终产物——蛋白质丰度的数据。由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据与基因组数据相比，要更为复杂，数据量更大，数据的增长速度更快。基因表达数据中蕴含着基因活动的信息，可以反映细胞当前的生理状态，例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分析可以获取基因功能和基因表达调控信息，这是生物信息学的重大挑战之一，也是 DNA 微阵列能够在生物医学领域中广泛应用的关键原因之一。基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析，可以回答一些生物学问题，例如，基因的功能是什么？在不同条件或不同细胞类型中，哪些基因的表达存在差异？在特定的条件下，哪些基因的表达发生了显著改变，这些基因受到哪些基因的调节，或者控制哪些基因的表达？哪些基因的表达是细胞状态特异性的，根据它们的行为可以判断细胞的状态（生存、增殖、分化、凋亡、癌变或应激等）等等。对这些问题的回答，结合其它生物学知识和数据有助于阐明基因的表达调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标，是系统生物学 (Systems Biology) 研究的核心内容。目前，对基因表达数据的分析主要是在三个层次上进行： 1 、分析单个基因的表达水平，根据在不同实验条件下，基因表达水平的变化，来判断它的功能，例如，可以根据表达差异的显著性来确定肿瘤分型相关的特异基因。采用的分析方法有统计学中的假设检验等。 2 、考虑基因组合，将基因分组，研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。 3 、尝试推断潜在的基因调控网络，从机理上解释观察到的基因表达数据。多采用反向工程的方法。本章首先介绍基因表达数据的来源和预处理方法；然后介绍基因表达数据分析的主要方法，包括表达差异分析、聚类分析和分类等；最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。 7.1 基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物 mRNA 在细胞中的丰度，这些数据可以用于分析哪些基因的表达发生了改变，基因之间有何相关性，在不同条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。检测细胞中 mRNA 丰度的方法有 cDNA 微阵列、寡核苷酸芯片、基因表达系列分析（ Serial analysis of gene expression ， SAGE ）、 RT-PCR 等。目前，高通量检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片，它们的原理是相同的，即利用 4 种核苷酸之间两两配对互补的特性，使两条在序列上互补的单核苷酸链形成双链，这个过程被称为杂交。基本技术路线是：制备芯片，在一个约 1cm 2 大小的玻璃片上，将称为探针的 cDNA 或寡核苷酸片段固定在上面；从细胞或组织中提取 mRNA ，通过 RT-PCR 合成荧光标记的 cDNA ，与芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析并得到细胞中 mRNA 丰度的信息。 7.1.1 cDNA 微阵列

荧光标记的样品共聚焦显微镜基因芯片获取荧光图象杂交结果分析在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也可能是不规则的,这意味着要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本( control sample)或对照样本( reference sample),通常用绿色荧光素(Cy3)标记其cDNA 另一个为测量样本,用红色荧光素(Cy5)标记其cDNA。这两个样本按照相同的实验方案分别制备不同荧光素标记的cDNA,并按1:1的比例混合,然后与cDNA微阵列杂交,用不同波长的激光扫描杂交后微阵列,分别获取荧光强度,并成像。来自两个样本的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。由于Cy3和C 的标记效率不相等,以及存在系统噪声等原因,通常需要对cDNA微阵列实验中获取的原始图像数据进行归一化。例如,用Cy3、Cy5两种荧光素分别标记的一些基因的表达水平相等,那么这些点的实验结果Cy5/C3荧光强度比率值(以下称 Ratio值)的期望值为 1,但由于得到的 Ratio值往往不等于1,这些实验偏差可以通过归一化来得到纠正。对微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等,归一化方法包括总密度(假设两个样本中的总RNA是相等的)线性回归、 Ratio 统计、迭代log( ratIo)平均值中心化等,与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧光信号强度的比率或者对数化的比率,这是一个无量纲的值,可用于比较一组实验中的基因相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,可能主要是噪声信号,因此它很可能是无意义的。这些数据往往看作是不确定的或异常点,在后续分析时要注意这些数据,根据需要确定是否保留以及如何纠正其值。 7.12寡核苷酸芯片又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是在片原位合成的。现有产品中应用最广泛的是 Affymetrix公司制造的 GENECHIP芯片, 它使用一种光掩模技术和传统的DNA合成化学的组合以非常髙的密度制造寡核苷酸阵列。例如, Affymetrix公司的 Human Genome U133芯片包含了100万个不同的寡核苷酸

在制造 cDNA 微阵列时，点样点的大小是不能保证完全一样的，点的排列也可能是不规则的，这意味着要比较不同微阵列图像的荧光绝对强度是不合理的，因此通常使用双色荧光系统来纠正点之间的差异。在制备样本时，使用两个样本，一个称为控制样本（ control sample ）或对照样本 (reference sample) ，通常用绿色荧光素（ Cy3 ）标记其 cDNA ，另一个为测量样本，用红色荧光素（ Cy5 ）标记其 cDNA 。这两个样本按照相同的实验方案分别制备不同荧光素标记的 cDNA ，并按 1 ： 1 的比例混合，然后与 cDNA 微阵列杂交，用不同波长的激光扫描杂交后微阵列，分别获取荧光强度，并成像。来自两个样本的基因如果以相同水平表达则显示黄色，而如果表达水平有差异，则图像显示红色或绿色。因此， cDNA 微阵列的实验数据反映了两个样本中基因的相对表达水平。由于 Cy3 和 Cy5 的标记效率不相等，以及存在系统噪声等原因，通常需要对 cDNA 微阵列实验中获取的原始图像数据进行归一化。例如，用 Cy3 、 Cy5 两种荧光素分别标记的一些基因的表达水平相等，那么这些点的实验结果 Cy5/Cy3 荧光强度比率值（以下称 Ratio 值）的期望值为 1 ，但由于得到的 Ratio 值往往不等于 1 ，这些实验偏差可以通过归一化来得到纠正。对微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等，归一化方法包括总密度（假设两个样本中的总 RNA 是相等的）、线性回归、 Ratio 统计、迭代 log(ratio) 平均值中心化等，与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA 微阵列实验得到的值反映了基因的相对表达水平，即测量样本与对照样本之间荧光信号强度的比率或者对数化的比率，这是一个无量纲的值，可用于比较一组实验中的基因相对表达水平。如果对照样本的信号非常低，那么这个比率就可能很大，可能主要是噪声信号，因此它很可能是无意义的。这些数据往往看作是不确定的或异常点，在后续分析时要注意这些数据，根据需要确定是否保留以及如何纠正其值。 7.1.2 寡核苷酸芯片又称为基因芯片、 DNA 芯片。它是在玻璃片上按阵列固定寡核苷酸探针，这些探针是在片原位合成的。现有产品中应用最广泛的是 Affymetrix 公司制造的 GENECHIP®芯片，它使用一种光掩模技术和传统的 DNA 合成化学的组合以非常高的密度制造寡核苷酸阵列。例如， Affymetrix 公司的 Human Genome U133 芯片包含了 100 万个不同的寡核苷酸

探针,代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分析,还可以用于微生物基因组的再测序寡核苷酸探针的长度通常为20-25bp,在检测mRNA丰度时可能存在寡核苷酸之间的非特异性交叉杂交,这可能会掩盖杂交信号:此外,对于特定的寡核苷酸,信号强度对于寡核苷酸的碱基组成比较敏感的。对于第一个问题, Affymetrix公司的解决办法是采用匹配/ 失配(PMMM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计个非特异的寡核苷酸探针,该探针仅仅在中间位置有一个碱基替换(失配),这样可以用 A与MM之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个待检测的mRNA包含多个寡核苷酸探针,例如设计11-20对探针来检测一个转录本。与cDNA微阵列不同的是,杂交实验中与寡核苷酸芯片杂交的是单个样本,而不是 cDNA微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种, 种用P/AM( Present/Absent/Dont Know)表示,表示有/无/不确定,另一种用荧光信号强度值表示。PAM可以用来判断样本中有无特定基因的表达,这个结果对于部分实验,特别是一些定性实验是有意义的,例如判断肿瘤与正常细胞的基因表达差异。当需要对几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用荧光强度值。有时实验结果中有负值,这是由于前景信号小于背景信号或者背景/阴性控制样本的定义不正确造成的, Affymetriⅸx公司的芯片分析系统会将负值修改成某一固定值。在分析多个实验条件下的基因表达数据时,与cDNA微阵列数据一样,也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化的数值,归一化的方法很多,而且一般都包含在芯片扫描系统的图像处理软件中 cDNA微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性,在一次芯片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片时可以通过添加阴性和阳性探针等手段来评价数据的质量,但是需要提醒的是,数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。 713基因表达数据的网络资源大量基于DNA微阵列实验的基因表达数据是公开发布在 Internet网上的,尤其是学术机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或 Excel格式的文件,这些数据往往都是经过归一化处理后的 Ratio值或log2(Rato),对于寡核苷酸芯片数据有的是P/AM表 ,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是DNA微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。因此,基于DNA微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tif'文件贮存, 将占用约60Mb的硬盘空间

探针，代表了 33000 个人类基因。寡核苷酸芯片主要用于 DNA 多态性检测和基因表达分析，还可以用于微生物基因组的再测序。寡核苷酸探针的长度通常为 20-25bp ，在检测 mRNA 丰度时可能存在寡核苷酸之间的非特异性交叉杂交，这可能会掩盖杂交信号；此外，对于特定的寡核苷酸，信号强度对于寡核苷酸的碱基组成比较敏感的。对于第一个问题， Affymetrix 公司的解决办法是采用匹配 / 失配（ PM/MM ）探针对的方法，即在设计一个特异的寡核苷酸 ( 匹配 ) 时，同时设计一个非特异的寡核苷酸探针，该探针仅仅在中间位置有一个碱基替换（失配），这样可以用 PM 与 MM 之间的差值作为信号强度。为了解决第二个问题，在设计探针时，对于每一个待检测的 mRNA 包含多个寡核苷酸探针，例如设计 11-20 对探针来检测一个转录本。与 cDNA 微阵列不同的是，杂交实验中与寡核苷酸芯片杂交的是单个样本，而不是 cDNA 微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种，一种用 P/A/M （ Present/Absent/Don't Know ）表示，表示有 / 无 / 不确定，另一种用荧光信号强度值表示。 P/A/M 可以用来判断样本中有无特定基因的表达，这个结果对于部分实验，特别是一些定性实验是有意义的，例如判断肿瘤与正常细胞的基因表达差异。当需要对几个不同条件下的基因表达情况进行分析时，对基因表达的相对变化更感兴趣，所以多采用荧光强度值。有时实验结果中有负值，这是由于前景信号小于背景信号或者背景 / 阴性控制样本的定义不正确造成的， Affymetrix 公司的芯片分析系统会将负值修改成某一固定值。在分析多个实验条件下的基因表达数据时，与 cDNA 微阵列数据一样，也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化的数值，归一化的方法很多，而且一般都包含在芯片扫描系统的图像处理软件中。 cDNA 微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性，在一次芯片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多，虽然在设计芯片时可以通过添加阴性和阳性探针等手段来评价数据的质量，但是需要提醒的是，数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。 7.1.3 基因表达数据的网络资源大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的，尤其是学术机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件，这些数据往往都是经过归一化处理后的 Ratio 值或 log 2 (Ratio) ，对于寡核苷酸芯片数据有的是 P/A/M 表示，有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息，对于要比较或整合分析来自不同研究小组的基因表达数据是非常困难的。主要原因是 DNA 微阵列并不是在任何客观的个体上测量基因表达水平，大多数测量值仅仅是基因表达的相对变化，而且使用的并不是一个标准化的对照样本。同时，基因表达数据比基因组序列数据要复杂的多，这些数据仅仅在有具体的关于实验条件的描述时才是有意义的，对于不同的细胞类型，在不同的条件下都有一套转录本。因此，基于 DNA 微阵列的基因表达数据存储量是非常大的，对于具有 20000 个探针的微阵列实验，以 10um 的分辨率扫描，产生 3 千万个离散的数据点，如果以 tiff 文件贮存，将占用约 60Mb 的硬盘空间

方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由于这些数据没有注释,迫切需要一种标准来描述和存贮DNA微阵列基因表达数据,同时建立公共的DNA微阵列数据仓库。欧洲生物信息学研究所(EBI)与德国肿瘤研究中心 (DKFZ)在1999年成立了MGED讨论组( The Microarray Gene Expression Data) MGED(htp/www.mgedorg/)是一个国际性的成员联盟,参与人员包括生物学家、计算机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组织开发的微阵列数据标准称为MAME( the minimum information about a microarray experiment),是对于解释和验证结果所必需的微阵列实验的最小信息描述。MAME不是微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的开发。同时,MGED组织开发了微阵列基因表达标记语言( MAGE-ML, Microarray Gene Expression- Markup Language),它是一种语言,用来描述跟基于实验的微阵列信息的通讯。MAGE-ML基于ⅹML,可以描述微阵列设计、制造、实验组织和实施信息、基因表达数据等。MMAE标准和 MAGE-ML语言受到了从事DNA微阵列开发和应用研究的科研人员和组织的广泛关注。美国NCBI的 Gene Expression Omnibus(GEO)、英国的EBI 的Aπay上 xpress数据库都采用了该标准,斯坦福微阵列数据库( Stanford Microarray Database,SMD)也正在兼容该标准目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO Array Express和SMD。 GEO(htp/www.ncbinlm.nih.govlgeo)是由NCBI在2000年开发的一个基因表达和杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到2004 年3月,数据仓库中包含内容有605个 Platform,14391个 Sample,816个 Serial Platform是关于物理反应物的信息, Sample是关于待检测的样本信息和使用单个 Platform 生的数据。 Series是关于样本集的信息,反映样本间的相关性和组织。 ArrayExpresshttp:/www.ebi.ac.uk/arravexpress/)是基于基因表达数据的微阵列公共知识库,目的是存储被注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集 Array Express数据库接受MAGE-ML格式的数据递交或者通过 MIAMExpress的基于 web界面注释和递交的数据。 Array Express提供一个简单的基于web的数据查询界面, 并直接与 Expession Profiler数据分析工具相连,可以进行表达数据聚类,和其它类型的web 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。 Array Express数据库中的数据将与所有由EBI维护的或在线的数据库相联接。 SMD(htp/ genome-www5 stanford. edu/)是一个使用 Oracle作为数据库管理软件的关系数据库。SMD存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从2002 年1月1日起,到2004年4月己包括85篇学术论文,超过3500个双色点样cDNA 微阵列的实验数据,并且每年增加1000个微阵列实验的数据。另外,SMD提供数据获取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入k-平均聚类单值分解和丢失值归纳等方法除了以上3个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 Ymd(YaleMicroarrayDatabasehttp://info.medyaleedumicroarrayArraydb

一方面由于基因表达数据量非常庞大，而且数据中蕴含着丰富的生物学知识，另一方面由于这些数据没有注释，迫切需要一种标准来描述和存贮 DNA 微阵列基因表达数据，同时建立公共的 DNA 微阵列数据仓库。欧洲生物信息学研究所（ EBI ）与德国肿瘤研究中心 (DKFZ) 在 1999 年成立了 MGED 讨论组 (The Microarray Gene Expression Data) 。 MGED （ http://www.mged.org/）是一个国际性的成员联盟，参与人员包括生物学家、计算机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。当前集中于建立微阵列数据注释和交换的标准，推动微阵列数据库建设和相关软件来实现这些标准，促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组织开发的微阵列数据标准称为 MIAME(the minimum information about a microarray experiment) ，是对于解释和验证结果所必需的微阵列实验的最小信息描述。 MIAME 不是微阵列实验必须遵循的教条，而是一组指导方针，它将帮助微阵列数据库和数据分析工具的开发。同时， MGED 组织开发了微阵列基因表达标记语言（ MAGE-ML ， Microarray Gene Expression - Markup Language ），它是一种语言，用来描述跟基于实验的微阵列信息的通讯。 MAGE-ML 基于 XML ，可以描述微阵列设计、制造、实验组织和实施信息、基因表达数据等。 MIMAE 标准和 MAGE-ML 语言受到了从事 DNA 微阵列开发和应用研究的科研人员和组织的广泛关注。美国 NCBI 的 Gene Expression Omnibus (GEO) 、英国的 EBI 的 ArrayExpress 数据库都采用了该标准，斯坦福微阵列数据库（ Stanford Microarray Database ， SMD ）也正在兼容该标准。目前，收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。 GEO （ http://www.ncbi.nlm.nih.gov/geo）是由 NCBI 在 2000 年开发的一个基因表达和杂交微阵列数据仓库，同时作为获取来自不同生物体的基因表达数据的在线资源。到 2004 年 3 月，数据仓库中包含内容有 605 个 Platform ， 14391 个 Sample ， 816 个 Serial 。 Platform 是关于物理反应物的信息，Sample是关于待检测的样本信息和使用单个Platform产生的数据。Series 是关于样本集的信息，反映样本间的相关性和组织。 ArrayExpress( http://www.ebi.ac.uk/arrayexpress/) 是基于基因表达数据的微阵列公共知识库，目的是存储被注释的数据，当前包含多个基因表达数据集和与实验相关的原始图像集。 ArrayExpress 数据库接受 MAGE-ML 格式的数据递交或者通过 MIAMExpress 的基于 Web 界面注释和递交的数据。 ArrayExpress 提供一个简单的基于 Web 的数据查询界面，并直接与Expession Profiler 数据分析工具相连，可以进行表达数据聚类，和其它类型的 Web 数据挖掘，并将进一步开发多个实验和数据库间的交叉查询。 ArrayExpress 数据库中的数据将与所有由 EBI 维护的或在线的数据库相联接。 SMD （ http://genome-www5.stanford.edu/）是一个使用 Oracle 作为数据库管理软件的关系数据库。 SMD 存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从 2002 年 1 月 1 日起，到 2004 年 4 月已包括 85 篇学术论文，超过 3500 个双色点样 cDNA 微阵列的实验数据，并且每年增加 1000 个微阵列实验的数据。另外， SMD 提供数据获取、分析和可视化的界面，目前包括层次聚类和自组织映射等方法，还将加入 k- 平均聚类、单值分解和丢失值归纳等方法。除了以上 3 个综合性的基因表达数据仓库外，还有一些专门的基因表达数据库，例如 YMD (Yale Microarray Database ， http://info.med.yale.edu/ microarray/) 、 ArrayDB

(http://genome.nhgrinihgov/arraydb/)BodyMap(http://bodymap.imsu-tokyo.ac.jp/) Expressdb(http://twod.medharvard.edu/expressdb/)HugeIndex(humanGeneExpression Index,htp/ vww. hugeindex org/ welcome/ index htm)等,这些数据库收集的数据往往具有物种特异性,使用比较方便 72基因表达数据预处理次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等)下的全基因组表达数据就构成了一个GXN的数据矩阵M,通常情况下G>>N,其中每一个元素表示第i个基因在第j个条件下的表达水平值(在多数应用情况下,是 Rao值或 log(ratio)0),行向量x1=(1,不2,…)代表基因在N个条件下的表达水平,称为基因i的表达谱,列向量x3=(8” 代表某一条件下的各基因的表达水平。 x2N X (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平是负值或很小的数据、或者明显的噪声数据(单个异常大或小的峰谷信号),同时处理缺失数据。DNA微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯片数据,可以将低于100的数据全部设置为100。DNA微阵列表达数据由于实验条件和芯片的因素,检测得到的信号强度往往与细胞中实际的mRNA丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在cDNA微阵列双色实验中,最后得到的往往是 Ratio值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio值。在计算 Ratio值时如果参考样本的信号强度很小,就可能得到很大的 Ratio。如果一个基因谱中仅仅存在单个特别大的 Ratio值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和PCA)来说有着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵M中删除:如果没有

（ http://genome.nhgri.nih.gov/arraydb/ ）、 BodyMap（ http://bodymap.ims.u-tokyo.ac.jp/ ）、 ExpressDB( http://twod.med.harvard.edu/ExpressDB/) 、 HuGE Index(Human Gene Expression Index ， http://www.hugeindex.org/welcome/index.html) 等，这些数据库收集的数据往往具有物种特异性，使用比较方便。 7.2 基因表达数据预处理一次微阵列实验能获得细胞在某一条件下的全基因组表达数据，包含成千上万个基因在细胞中的相对或绝对丰度，不同条件（细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等）下的全基因组表达数据就构成了一个 G×N 的数据矩阵 M，通常情况下 G>>N，其中每一个元素表示第 i 个基因在第 j 个条件下的表达水平值（在多数应用情况下，是 Ratio 值或 log(Ratio) ），行向量代表基因 i 在 N 个条件下的表达水平，称为基因 i 的表达谱，列向量代表某一条件下的各基因的表达水平。（7-1）对基因表达数据进行聚类、分类等数据分析之前，往往需要进行预处理，包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗，根据分析的目的进行数据过滤，以及针对分析方法选择合适的数据转换方法等。数据清洗是数据分析前必须进行的一项工作，对于基因表达数据，目的是去除表达水平是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ，同时处理缺失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的，每个点的信号强度是前景信号减去背景信号，因此有时会出现负值或很小的值，显然负值是没有生物学意义的。对于这些数据点，通过数据清洗过程可以置为缺失或赋予统一的数值，例如，对于寡核苷酸芯片数据，可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件和芯片的因素，检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系，因此，通常是采用两个条件下的信号强度的比值，例如，在 cDNA 微阵列双色实验中，最后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度，然而在处理一组数据时，也往往选择一个样本作为对照样本，将实验数据转换成 Ratio 值。在计算 Ratio 值时，如果参考样本的信号强度很小，就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单个特别大的 Ratio 值，称之为异常数据点，这往往是由于噪声造成的。对于这个异常数据点，必须去除。数据的缺失对于某些后续数据分析方法（例如层次式聚类和 PCA ）来说有着非常大的影响，甚至是致命性的，这时必须采取相应的方法。一个简单方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值，计算行向量或列向量中的缺失项数目，如果达到该阈值，则将该数据项所在行或列从数据矩阵 M 中删除；如果没有

达到阈值但存在缺失项,对这些缺失项可以进行插值。以0代替缺失项,或用基因表达谱中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据这种关系,利用相邻数据点估算得到缺失值。这种方法类似于k近邻方法,需要有足够的完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此,DNA微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根: ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对数转换和标准化两个过程许多DNA微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio值,对于 Ratio 值,在大多数情况下是转换到对数(log)空间中进行处理,常用的对数底为2,e,10。考虑时间序列上的基因表达数据,实验结果是相对于0时刻的表达水平。如图81所示,假设在时间点1,基因的表达水平没有改变,在时间点2,上调2倍,而时间点3,下调 2倍,原始的比率值分别为1.0、20、0.5。在大多数应用中,需要把上调2倍和下调2倍看作是变化的相同幅度,只是方向不同。在 Ratio空间中,时间点1和2之间的差异是+10,而时间点1和3之间是-0.5,从数学角度看,上调2倍的数值是下调倍的2倍。而在log空间中,(为了简化,用2为底),这三个数据点分别为0、1.0 1.0,上调2倍与下调2倍是关于0对称的。因此,对数转换可以使小于1的值变大于1的值变小,从而使它们关于0对称化,这种变换是否反映了一定的生物学意义,能更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过程,都是在log空间中进行的

达到阈值但存在缺失项，对这些缺失项可以进行插值。以 0 代替缺失项，或用基因表达谱中的平均值或中值进行替代，这些方法都比较简单，但是否与真实值接近，很难进行评估。较为复杂和可靠的方法是，分析基因表达谱的模式，从中得到相邻数据点之间的关系，根据这种关系，利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法，需要有足够的完整的模式来发现有缺失值的相邻模式，需要有足够的值来确定它们的邻居。在细胞中，基因表达有时空特异性，在某一条件下，能够表达的基因占基因总数的少部分，而大多数基因仅维持基础转录或不转录，转录本丰度很小，因此， DNA 微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的，即基因表达水平变化很小。对于这些基因，往往不是生物学家所关心的，而它们的存在，却会大大增加数据分析的复杂性，而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱究竟占总体数据的多少比例？这个问题是与分析目的密切相关的，例如对于分析细胞周期相关的基因表达，保留的基因可能较多；而对于肿瘤特异基因表达谱分析，保留的基因往往较少。过滤基因所采用的标准有：①基因表达谱中最大值与最小值的差；②标准差；③均方根； ④绝对值大于阈值的数据个数等。根据分析的对象和目的，可以选择以上一个或多个标准，确定阈值，从而选择基因表达谱。基因表达谱数据经过过滤，在进行聚类分析等操作前，往往还需要进行数据转换。数据转换是将数据变换为适合数据挖掘的形式，可以根据需要构造出新的数据属性以帮助理解分析数据的特点，或者将数据规范化，使之落在一个特定的数据区间中。因此，数据转换包括对数转换和标准化两个过程。许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值，对于 Ratio 值，在大多数情况下是转换到对数 (log) 空间中进行处理，常用的对数底为 2, e, 10 。考虑时间序列上的基因表达数据，实验结果是相对于 0 时刻的表达水平。如图 8.1 所示，假设在时间点 1 ，基因的表达水平没有改变，在时间点 2 ，上调 2 倍，而时间点 3 ，下调 2 倍，原始的比率值分别为 1.0 、 2.0 、 0.5 。在大多数应用中，需要把上调 2 倍和下调 2 倍看作是变化的相同幅度，只是方向不同。在 Ratio 空间中，时间点 1 和 2 之间的差异是 +1.0 ，而时间点 1 和 3 之间是 -0.5 ，从数学角度看，上调 2 倍的数值是下调 2 倍的 2 倍。而在 log 空间中，（为了简化，用 2 为底），这三个数据点分别为 0 、 1.0 、 -1.0 ，上调 2 倍与下调 2 倍是关于 0 对称的。因此，对数转换可以使小于 1 的值变大，大于 1 的值变小，从而使它们关于 0 对称化，这种变换是否反映了一定的生物学意义，能更直观的了解基因的上调或下调的幅度？尚没有定论，但是对于大多数基因表达数据分析过程，都是在 log 空间中进行的

(b-a)(x-xmin) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就是平均值/中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正 Ratio值的系统偏差,它们是由于RNA数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有的基因与一个固定数值的Rato有放大的效应。在log空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望比率是10(在log空间中为0)。通常,更多的是使用中值中心化目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时,往往是根据分析目的和个人经验选择不同的方法 73基因表达差异的显着性分析用于检测基因表达水平的DNA微阵列实验,应用之一是比较实验,目的是比较两个条件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但是,由于DNA微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两个条件下的 Ratio值,若大于给定阈值,则为表达差异显著的基因:第二类方法采用统计分析中的t检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性例如贝叶斯方法。 73.1倍数分析早期基于cDNA微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基因在两个条件下表达水平的 Ratio值。用g表示基因g在条件i下的表达水平测量值, 因此, Ratio值为g=g12,可表示基因g在条件1和2下的表达水平差异。对于cDNA微阵列实验,是将两个条件下的样本混合后与cDNA微阵列进行杂交实验,得到的是成对数据,对每次实验得到的数据计算,最后计算重复实验的平均。而对于寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其

(7-5) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较，每一个基因，相对于对照样本中那个基因的表达水平，都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助，对照样本中的基因表达量是独立于分析的。这样，可以通过调整每一个基因的数值来反映系列观察值的变化，例如平均值或者中值。这就是平均值 / 中值中心化，中心化可以减少对照样本的影响。中心化数据同样可以用于去除某些类型的偏差。例如，许多双色荧光杂交实验的结果没有校正 Ratio 值的系统偏差，它们是由于 RNA 数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有的基因与一个固定数值的 Ratio 有放大的效应。在 log 空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设，在特定的实验中，基因的平均值期望比率是 1.0( 在 log 空间中为 0) 。通常，更多的是使用中值中心化。目前对数据预处理这种策略的作用还不是很清楚，还没有人进行系统的研究，提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时，往往是根据分析目的和个人经验选择不同的方法。 7.3 基因表达差异的显著性分析用于检测基因表达水平的 DNA 微阵列实验，应用之一是比较实验，目的是比较两个条件下的基因表达差异，从中识别出与条件相关的特异性基因，例如，识别可用于肿瘤分型的特异基因等。为了提高实验的可靠性，对于同一样本，往往有两次或更多次的重复实验，但是，由于 DNA 微阵列的费用仍然很昂贵，不可能重复足够多的次数来满足实验数据分析的要求，因此需要采用统计方法来分析这些数据。对于这些表达数据的分析，目的就是要识别在两个条件下有显著表达差异的基因。何谓显著表达差异？通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外，达到一定的差异，具有统计学意义，同时也具有生物学意义。常用的分析方法有三类，第一类称之为倍数分析，计算每一个基因在两个条件下的 Ratio 值，若大于给定阈值，则为表达差异显著的基因；第二类方法采用统计分析中的 t 检验和方差分析，计算表达差异的置信度，来分析差异是否具有统计显著性；第三类是建模的方法，通过确定两个条件下的模型参数是否相同来判断表达差异的显著性，例如贝叶斯方法。 7.3.1 倍数分析早期基于 cDNA 微阵列技术的比较实验，用倍数来分析基因表达水平差异，即计算基因在两个条件下表达水平的 Ratio 值。用表示基因 g 在条件 i 下的表达水平测量值，因此， Ratio 值为，可表示基因 g 在条件 1 和 2 下的表达水平差异。对于 cDNA 微阵列实验，是将两个条件下的样本混合后与 cDNA 微阵列进行杂交实验，得到的是成对数据，对每次实验得到的数据计算，最后计算重复实验的平均。而对于寡核苷酸芯片，首先分别计算两个样本的重复实验的归一化表达水平的平均值，然后计算其

Rato值当'g=1时,基因g的表达水平没有改变,而1意味着基因g在两个条件下存在表达差异,特别是1,表示在条件1是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超过一个常数,典型的常数是2,即>2或</2,则认为该基因的表达差异是显著的。然而,对表达数据仔细考察后可以发现,这样简单的2倍法并不能产生最优的结果,因为因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用2倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于2就具有生物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行确定。 732t检验于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较多的是采用假设检验,包括两个条件下的t检验和多个条件下的方差分析( ANOVA) 这里仅仅介绍t检验,关于 ANOVA请参考相应的统计分析书籍零假语,H0:B=“B2,即假设两个条件下的平均表达水平是相等的,与之对应的备选假设是 H1:ag1≠“g2 统计量的计算公式如下 (7-6) 其中 ,"为某一条件下的重复实验次数gy是基因g在第i个条件下第j次重复实验的表达水平测量值。根据统计量『值,可以得到p值,它表示在零假设成立的情况下,出现该数据的概率。如果p值小于给定的显著性水平,就拒绝零假设,即认为基因g在两个条件下的表达差异是显著的。因为在t检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克服固定倍数阈值方法的一些缺点。然而,对于DNA微阵列数据的t检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数经常较小,"2=2、3的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得到的t值就较大,因此会导致较高的假发现率(FDR, False Discovery Rate),即通过t检验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺点

Ratio 值。当 =1 时，基因 g 的表达水平没有改变，而 1 意味着基因 g 在两个条件下存在表达差异，特别是 1 ，表示在条件 1 是上调的。在具体应用中，如果一个基因的平均表达水平在两个条件下的变化超过一个常数，典型的常数是 2 ，即 >2 或 <1/2 ，则认为该基因的表达差异是显著的。然而，对表达数据仔细考察后可以发现，这样简单的 2 倍法并不能产生最优的结果，因为因子 2 在不同的表达水平上有相当不同的显著性。对于低表达水平的基因，其信噪比太低，用 2 倍法作为判断条件太宽松，而对于高表达基因，条件又太苛刻，往往小于 2 就具有生物学意义。在具体应用中，并没有明确的阈值，往往根据分析的具体要求由数据分析者自行确定。 7.3.2 t 检验于两个条件下的多次重复实验，为了判断基因的表达差异是否具有显著性，在应用中较多的是采用假设检验，包括两个条件下的 t 检验和多个条件下的方差分析（ ANOVA ），这里仅仅介绍 t 检验，关于 ANOVA 请参考相应的统计分析书籍。零假设为，即假设两个条件下的平均表达水平是相等的，与之对应的备选假设是。 t 统计量的计算公式如下：（7-6）其中，，为某一条件下的重复实验次数,Xgij 是基因 g 在第 i 个条件下第 j 次重复实验的表达水平测量值。根据统计量值，可以得到 p 值，它表示在零假设成立的情况下，出现该数据的概率。如果 p 值小于给定的显著性水平，就拒绝零假设，即认为基因 g 在两个条件下的表达差异是显著的。因为在 t 检验中，两个总体平均值之间的距离被样本的标准差归一化，可以克服固定倍数阈值方法的一些缺点。然而，对于 DNA 微阵列数据的 t 检验的基本问题是，即使用当前的高通量检测技术，实验仍然花费很大或者实验过程很冗长，重复次数经常较小， =2 、 3 的小样本仍然非常普通。由于样本量小，导致总体方差被严重低估，得到的 t 值就较大，因此会导致较高的假发现率 (FDR ， False Discovery Rate) ，即通过 t 检验得到的结果中表达差异不显著的基因数目较多。这样，需要更好的分析方法来克服这些缺点

点击下载完整版文档（PDF格式）

共27页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录