第七章微阵列芯片 随着cDNA微阵列和寡核苷酸芯片(下文没有特别说明时,统称为DNA微阵列)等 高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物mRNA 在本章中,基因表达数据特指基于DNA微阵列实验得到的反映mRNA丰度的数据,而 不包括基因表达最终产物—蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因 表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大 数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状 态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分 析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是DNA微 阵列能够在生物医学领域中广泛应用的关键原因之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩 阵。通过对该数据矩阵的分析,可以回答一些生物学问题,例如,基因的功能是什么?在不 同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发 生了显著改变,这些基因受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达 是细胞状态特异性的,根据它们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌 变或应激等)等等。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达 调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标 是系统生物学( Systems Biology)研究的核心内容。目前,对基因表达数据的分析主要是在 个层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,基因表达水平 的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的特异基 因。采用的分析方法有统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基 因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的 基因调控网络,从机理上解释观察到的基因表达数据。多采用反向工程的方法。 本章首先介绍基因表达数据的来源和预处理方法:然后介绍基因表达数据分析的主要方 法,包括表达差异分析、聚类分析和分类等:最后简单介绍从基因表达数据出发研究基因调 控网络的一些经典模型 71基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度, 这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基 因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面 有重要的应用。检测细胞中mRNA丰度的方法有cDNA微阵列、寡核苷酸芯片、基因表 达系列分析( Serial analysis of gene expression,SAGE)、 RT-PCR等。目前,高通量 检测基因组mRNA丰度的方法主要是cDNA微阵列、寡核苷酸芯片,它们的原理是相同 的,即利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单核苷酸链形成 双链,这个过程被称为杂交。基本技术路线是:制备芯片,在一个约1cm2大小的玻璃片 上,将称为探针的cDNA或寡核苷酸片段固定在上面:从细胞或组织中提取mRNA,通 过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交 后的芯片,获取荧光强度,分析并得到细胞中mRNA丰度的信息 711cDNA微阵列
第七章 微阵列芯片 随着 cDNA 微阵列和寡核苷酸芯片(下文没有特别说明时,统称为 DNA 微阵列)等 高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物 mRNA 。 在本章中,基因表达数据特指基于 DNA 微阵列实验得到的反映 mRNA 丰度的数据,而 不包括基因表达最终产物——蛋白质丰度的数据。由于生物体中的细胞种类繁多,同时基因 表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大, 数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状 态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分 析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是 DNA 微 阵列能够在生物医学领域中广泛应用的关键原因之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩 阵。通过对该数据矩阵的分析,可以回答一些生物学问题,例如,基因的功能是什么?在不 同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发 生了显著改变,这些基因受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达 是细胞状态特异性的,根据它们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌 变或应激等)等等。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达 调控路径和调控网络。 揭示基因调控路径和网络是生物学和生物信息学共同关注的目标, 是系统生物学 (Systems Biology) 研究的核心内容。 目前,对基因表达数据的分析主要是在 三个层次上进行: 1 、分析单个基因的表达水平,根据在不同实验条件下,基因表达水平 的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的特异基 因。采用的分析方法有统计学中的假设检验等。 2 、考虑基因组合,将基因分组,研究基 因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。 3 、尝试推断潜在的 基因调控网络,从机理上解释观察到的基因表达数据。多采用反向工程的方法。 本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方 法,包括表达差异分析、聚类分析和分类等;最后简单介绍从基因表达数据出发研究基因调 控网络的一些经典模型。 7.1 基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物 mRNA 在细胞中的丰度, 这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基 因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面 有重要的应用。检测细胞中 mRNA 丰度的方法有 cDNA 微阵列、寡核苷酸芯片、基因表 达系列分析( Serial analysis of gene expression , SAGE )、 RT-PCR 等。目前,高通量 检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片,它们的原理是相同 的,即利用 4 种核苷酸之间两两配对互补的特性,使两条在序列上互补的单核苷酸链形成 双链,这个过程被称为杂交。基本技术路线是:制备芯片,在一个约 1cm 2 大小的玻璃片 上,将称为探针的 cDNA 或寡核苷酸片段固定在上面;从细胞或组织中提取 mRNA ,通 过 RT-PCR 合成荧光标记的 cDNA ,与芯片杂交;用激光显微镜或荧光显微镜检测杂交 后的芯片,获取荧光强度,分析并得到细胞中 mRNA 丰度的信息。 7.1.1 cDNA 微阵列
cDNA微阵列是在1995年由斯坦福大学率先研制成功并应用于基因表达分析的。首先 将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(其 长度通常大于200bp)作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每 一个点只包含一种cDNA分子,这样就制成了cDNA微阵列。固定在玻片上的cDNA探 针可以通过测序得到序列或者其来源是已知的。在使用cDNA微阵列时,首先提取组织或 细胞系中的mRNA样本,逆转录成cDNA并用荧光素标记:然后把标记混合物加到 cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列:最后用激光扫描仪扫描并 获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值 定量反映了样本中存在的与探针互补的mRNA丰度,也就是反映了探针所对应基因的表达 水平 原理—通过杂交检测信息 组寡核苷酸探针 由杂交位置确定的一组 TACGTTAG ATACGTTA 核酸探针序列 「 ATACGTTA TACGTTAG ACGTTAGA 杂交探针组 CGTTAGAT 日日 I GTTAGATCI ACGTTAGA CGTTAGAT GTTAGATC A TACGTTAGATC 重组的互补序列 ○- -TATGCAATCTAG TATGCAATCTAG 靶序列
cDNA 微阵列是在 1995 年由斯坦福大学率先研制成功并应用于基因表达分析的。首先 将细胞内的 mRNA 逆转录成 cDNA 并分离,然后将分离得到的所有或部分 cDNA (其 长度通常大于 200bp )作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每 一个点只包含一种 cDNA 分子,这样就制成了 cDNA 微阵列。固定在玻片上的 cDNA 探 针可以通过测序得到序列或者其来源是已知的。在使用 cDNA 微阵列时,首先提取组织或 细胞系中的 mRNA 样本,逆转录成 cDNA 并用荧光素标记;然后把标记混合物加到 cDNA 微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;最后用激光扫描仪扫描并 获取荧光图像,对图像进行分析,得到 cDNA 芯片上每一个点的荧光强度值。荧光强度值 定量反映了样本中存在的与探针互补的 mRNA 丰度,也就是反映了探针所对应基因的表达 水平
荧光标记的样品 共聚焦显微镜 基因芯片 获取荧光图象 杂交结果分析 在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也可能是不规 则的,这意味着要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光 系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本( control sample)或对照样本( reference sample),通常用绿色荧光素(Cy3)标记其cDNA 另一个为测量样本,用红色荧光素(Cy5)标记其cDNA。这两个样本按照相同的实验 方案分别制备不同荧光素标记的cDNA,并按1:1的比例混合,然后与cDNA微阵 列杂交,用不同波长的激光扫描杂交后微阵列,分别获取荧光强度,并成像。来自两个样本 的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。 因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。由于Cy3和C 的标记效率不相等,以及存在系统噪声等原因,通常需要对cDNA微阵列实验中获取的原 始图像数据进行归一化。例如,用Cy3、Cy5两种荧光素分别标记的一些基因的表达水 平相等,那么这些点的实验结果Cy5/C3荧光强度比率值(以下称 Ratio值)的期望值为 1,但由于得到的 Ratio值往往不等于1,这些实验偏差可以通过归一化来得到纠正。对 微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比 归一化等,归一化方法包括总密度(假设两个样本中的总RNA是相等的)线性回归、 Ratio 统计、迭代log( ratIo)平均值中心化等,与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧 光信号强度的比率或者对数化的比率,这是一个无量纲的值,可用于比较一组实验中的基因 相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,可能主要是噪声信 号,因此它很可能是无意义的。这些数据往往看作是不确定的或异常点,在后续分析时要注 意这些数据,根据需要确定是否保留以及如何纠正其值。 7.12寡核苷酸芯片 又称为基因芯片、DNA芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是 在片原位合成的。现有产品中应用最广泛的是 Affymetrix公司制造的 GENECHIP芯片, 它使用一种光掩模技术和传统的DNA合成化学的组合以非常髙的密度制造寡核苷酸阵 列。例如, Affymetrix公司的 Human Genome U133芯片包含了100万个不同的寡核苷酸
在制造 cDNA 微阵列时,点样点的大小是不能保证完全一样的,点的排列也可能是不规 则的,这意味着要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光 系统来纠正点之间的差异。在制备样本时,使用两个样本,一个称为控制样本( control sample )或对照样本 (reference sample) ,通常用绿色荧光素( Cy3 )标记其 cDNA , 另一个为测量样本,用红色荧光素( Cy5 )标记其 cDNA 。这两个样本按照相同的实验 方案分别制备不同荧光素标记的 cDNA ,并按 1 : 1 的比例混合,然后与 cDNA 微阵 列杂交,用不同波长的激光扫描杂交后微阵列,分别获取荧光强度,并成像。来自两个样本 的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。 因此, cDNA 微阵列的实验数据反映了两个样本中基因的相对表达水平。由于 Cy3 和 Cy5 的标记效率不相等,以及存在系统噪声等原因,通常需要对 cDNA 微阵列实验中获取的原 始图像数据进行归一化。例如,用 Cy3 、 Cy5 两种荧光素分别标记的一些基因的表达水 平相等,那么这些点的实验结果 Cy5/Cy3 荧光强度比率值(以下称 Ratio 值)的期望值为 1 ,但由于得到的 Ratio 值往往不等于 1 ,这些实验偏差可以通过归一化来得到纠正。对 微阵列进行归一化的指导思想包括基于全局强度值调整、强度相关归一化、玻片之间的对比 归一化等,归一化方法包括总密度(假设两个样本中的总 RNA 是相等的)、线性回归、 Ratio 统计、迭代 log(ratio) 平均值中心化等,与微阵列扫描系统配套的软件可以完成归一化工作。 cDNA 微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧 光信号强度的比率或者对数化的比率,这是一个无量纲的值,可用于比较一组实验中的基因 相对表达水平。如果对照样本的信号非常低,那么这个比率就可能很大,可能主要是噪声信 号,因此它很可能是无意义的。这些数据往往看作是不确定的或异常点,在后续分析时要注 意这些数据,根据需要确定是否保留以及如何纠正其值。 7.1.2 寡核苷酸芯片 又称为基因芯片、 DNA 芯片。它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是 在片原位合成的。现有产品中应用最广泛的是 Affymetrix 公司制造的 GENECHIP®芯片, 它使用一种光掩模技术和传统的 DNA 合成化学的组合以非常高的密度制造寡核苷酸阵 列。例如, Affymetrix 公司的 Human Genome U133 芯片包含了 100 万个不同的寡核苷酸
探针,代表了33000个人类基因。寡核苷酸芯片主要用于DNA多态性检测和基因表达分 析,还可以用于微生物基因组的再测序 寡核苷酸探针的长度通常为20-25bp,在检测mRNA丰度时可能存在寡核苷酸之间的 非特异性交叉杂交,这可能会掩盖杂交信号:此外,对于特定的寡核苷酸,信号强度对于寡 核苷酸的碱基组成比较敏感的。对于第一个问题, Affymetrix公司的解决办法是采用匹配/ 失配(PMMM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计 个非特异的寡核苷酸探针,该探针仅仅在中间位置有一个碱基替换(失配),这样可以用 A与MM之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个 待检测的mRNA包含多个寡核苷酸探针,例如设计11-20对探针来检测一个转录本。 与cDNA微阵列不同的是,杂交实验中与寡核苷酸芯片杂交的是单个样本,而不是 cDNA微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种, 种用P/AM( Present/Absent/Dont Know)表示,表示有/无/不确定,另一种用荧光 信号强度值表示。PAM可以用来判断样本中有无特定基因的表达,这个结果对于部分实 验,特别是一些定性实验是有意义的,例如判断肿瘤与正常细胞的基因表达差异。当需要对 几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用 荧光强度值。有时实验结果中有负值,这是由于前景信号小于背景信号或者背景/阴性控 制样本的定义不正确造成的, Affymetriⅸx公司的芯片分析系统会将负值修改成某一固定值。 在分析多个实验条件下的基因表达数据时,与cDNA微阵列数据一样,也是一系列测量 样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化 的数值,归一化的方法很多,而且一般都包含在芯片扫描系统的图像处理软件中 cDNA微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性,在一次芯 片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片 时可以通过添加阴性和阳性探针等手段来评价数据的质量,但是需要提醒的是,数据的可靠 性仍然是对数据进行后续分析时必须考虑的一个问题。 713基因表达数据的网络资源 大量基于DNA微阵列实验的基因表达数据是公开发布在 Internet网上的,尤其是学术 机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术 论文的补充资料在网上发布的数据主要是文本文件或 Excel格式的文件,这些数据往往都 是经过归一化处理后的 Ratio值或log2(Rato),对于寡核苷酸芯片数据有的是P/AM表 ,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描 图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的 基因表达数据是非常困难的。主要原因是DNA微阵列并不是在任何客观的个体上测量基 因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对 照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于 实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。 因此,基于DNA微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微 阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tif'文件贮存, 将占用约60Mb的硬盘空间
探针,代表了 33000 个人类基因。寡核苷酸芯片主要用于 DNA 多态性检测和基因表达分 析,还可以用于微生物基因组的再测序。 寡核苷酸探针的长度通常为 20-25bp ,在检测 mRNA 丰度时可能存在寡核苷酸之间的 非特异性交叉杂交,这可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号强度对于寡 核苷酸的碱基组成比较敏感的。对于第一个问题, Affymetrix 公司的解决办法是采用匹配 / 失配( PM/MM )探针对的方法,即在设计一个特异的寡核苷酸 ( 匹配 ) 时,同时设计 一个非特异的寡核苷酸探针,该探针仅仅在中间位置有一个碱基替换(失配),这样可以用 PM 与 MM 之间的差值作为信号强度。为了解决第二个问题,在设计探针时,对于每一个 待检测的 mRNA 包含多个寡核苷酸探针,例如设计 11-20 对探针来检测一个转录本。 与 cDNA 微阵列不同的是,杂交实验中与寡核苷酸芯片杂交的是单个样本,而不是 cDNA 微阵列实验中测量样本与对照样本的混合物。寡核苷酸芯片的检测结果有两种,一 种用 P/A/M ( Present/Absent/Don't Know )表示,表示有 / 无 / 不确定,另一种用荧光 信号强度值表示。 P/A/M 可以用来判断样本中有无特定基因的表达,这个结果对于部分实 验,特别是一些定性实验是有意义的,例如判断肿瘤与正常细胞的基因表达差异。当需要对 几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用 荧光强度值。有时实验结果中有负值,这是由于前景信号小于背景信号或者背景 / 阴性控 制样本的定义不正确造成的, Affymetrix 公司的芯片分析系统会将负值修改成某一固定值。 在分析多个实验条件下的基因表达数据时,与 cDNA 微阵列数据一样,也是一系列测量 样本与对照样本之间的信号强度比率或比率的对数值。实验得到的信号强度也是经过归一化 的数值,归一化的方法很多,而且一般都包含在芯片扫描系统的图像处理软件中。 cDNA 微阵列或基因芯片在用于基因表达分析时的一个最大优点是高通量性,在一次芯 片实验中可以对成千上万个基因的表达进行并行测量。由于实验环节较多,虽然在设计芯片 时可以通过添加阴性和阳性探针等手段来评价数据的质量,但是需要提醒的是,数据的可靠 性仍然是对数据进行后续分析时必须考虑的一个问题。 7.1.3 基因表达数据的网络资源 大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的,尤其是学术 机构在发表论文时所用的实验数据都可以免费提供给全世界的研究人员下载使用。作为学术 论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件,这些数据往往都 是经过归一化处理后的 Ratio 值或 log 2 (Ratio) ,对于寡核苷酸芯片数据有的是 P/A/M 表 示,有的是荧光强度值。因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描 图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不同研究小组的 基因表达数据是非常困难的。主要原因是 DNA 微阵列并不是在任何客观的个体上测量基 因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对 照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于 实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。 因此,基于 DNA 微阵列的基因表达数据存储量是非常大的,对于具有 20000 个探针的微 阵列实验,以 10um 的分辨率扫描,产生 3 千万个离散的数据点,如果以 tiff 文件贮存, 将占用约 60Mb 的硬盘空间
方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由 于这些数据没有注释,迫切需要一种标准来描述和存贮DNA微阵列基因表达数据,同时 建立公共的DNA微阵列数据仓库。欧洲生物信息学研究所(EBI)与德国肿瘤研究中心 (DKFZ)在1999年成立了MGED讨论组( The Microarray Gene Expression Data) MGED(htp/www.mgedorg/)是一个国际性的成员联盟,参与人员包括生物学家、计算 机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数 据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软 件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组 织开发的微阵列数据标准称为MAME( the minimum information about a microarray experiment),是对于解释和验证结果所必需的微阵列实验的最小信息描述。MAME不是 微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的 开发。同时,MGED组织开发了微阵列基因表达标记语言( MAGE-ML, Microarray Gene Expression- Markup Language),它是一种语言,用来描述跟基于实验的微阵列信息的通 讯。MAGE-ML基于ⅹML,可以描述微阵列设计、制造、实验组织和实施信息、基因表 达数据等。MMAE标准和 MAGE-ML语言受到了从事DNA微阵列开发和应用研究的 科研人员和组织的广泛关注。美国NCBI的 Gene Expression Omnibus(GEO)、英国的EBI 的Aπay上 xpress数据库都采用了该标准,斯坦福微阵列数据库( Stanford Microarray Database,SMD)也正在兼容该标准 目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO Array Express和SMD。 GEO(htp/www.ncbinlm.nih.govlgeo)是由NCBI在2000年开发的一个基因表达和 杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到2004 年3月,数据仓库中包含内容有605个 Platform,14391个 Sample,816个 Serial Platform是关于物理反应物的信息, Sample是关于待检测的样本信息和使用单个 Platform 生的数据。 Series是关于样本集的信息,反映样本间的相关性和组织。 ArrayExpresshttp:/www.ebi.ac.uk/arravexpress/)是基于基因表达数据的微阵列公共知识 库,目的是存储被注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集 Array Express数据库接受MAGE-ML格式的数据递交或者通过 MIAMExpress的基于 web界面注释和递交的数据。 Array Express提供一个简单的基于web的数据查询界面, 并直接与 Expession Profiler数据分析工具相连,可以进行表达数据聚类,和其它类型的web 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。 Array Express数据库中的数 据将与所有由EBI维护的或在线的数据库相联接。 SMD(htp/ genome-www5 stanford. edu/)是一个使用 Oracle作为数据库管理软件的关 系数据库。SMD存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从2002 年1月1日起,到2004年4月己包括85篇学术论文,超过3500个双色点样cDNA 微阵列的实验数据,并且每年增加1000个微阵列实验的数据。另外,SMD提供数据获 取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入k-平均聚类 单值分解和丢失值归纳等方法 除了以上3个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 Ymd(YaleMicroarrayDatabasehttp://info.medyaleedumicroarrayArraydb
一方面由于基因表达数据量非常庞大,而且数据中蕴含着丰富的生物学知识,另一方面由 于这些数据没有注释,迫切需要一种标准来描述和存贮 DNA 微阵列基因表达数据,同时 建立公共的 DNA 微阵列数据仓库。欧洲生物信息学研究所( EBI )与德国肿瘤研究中心 (DKFZ) 在 1999 年成立了 MGED 讨论组 (The Microarray Gene Expression Data) 。 MGED ( http://www.mged.org/)是一个国际性的成员联盟,参与人员包括生物学家、计算 机科学家、数据分析学家。它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数 据的共享。当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软 件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。该组 织开发的微阵列数据标准称为 MIAME(the minimum information about a microarray experiment) ,是对于解释和验证结果所必需的微阵列实验的最小信息描述。 MIAME 不是 微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的 开发。同时, MGED 组织开发了微阵列基因表达标记语言( MAGE-ML , Microarray Gene Expression - Markup Language ),它是一种语言,用来描述跟基于实验的微阵列信息的通 讯。 MAGE-ML 基于 XML ,可以描述微阵列设计、制造、实验组织和实施信息、基因表 达数据等。 MIMAE 标准和 MAGE-ML 语言受到了从事 DNA 微阵列开发和应用研究的 科研人员和组织的广泛关注。美国 NCBI 的 Gene Expression Omnibus (GEO) 、英国的 EBI 的 ArrayExpress 数据库都采用了该标准,斯坦福微阵列数据库( Stanford Microarray Database , SMD )也正在兼容该标准。 目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。 GEO ( http://www.ncbi.nlm.nih.gov/geo)是由 NCBI 在 2000 年开发的一个基因表达和 杂交微阵列数据仓库,同时作为获取来自不同生物体的基因表达数据的在线资源。到 2004 年 3 月,数据仓库中包含内容有 605 个 Platform , 14391 个 Sample , 816 个 Serial 。 Platform 是关于物理反应物的信息,Sample是关于待检测的样本信息和使用单个Platform产 生的数据。Series 是关于样本集的信息,反映样本间的相关性和组织。 ArrayExpress( http://www.ebi.ac.uk/arrayexpress/) 是基于基因表达数据的微阵列公共知识 库,目的是存储被注释的数据,当前包含多个基因表达数据集和与实验相关的原始图像集。 ArrayExpress 数据库接受 MAGE-ML 格式的数据递交或者通过 MIAMExpress 的基于 Web 界面注释和递交的数据。 ArrayExpress 提供一个简单的基于 Web 的数据查询界面, 并直接与Expession Profiler 数据分析工具相连,可以进行表达数据聚类,和其它类型的 Web 数据挖掘,并将进一步开发多个实验和数据库间的交叉查询。 ArrayExpress 数据库中的数 据将与所有由 EBI 维护的或在线的数据库相联接。 SMD ( http://genome-www5.stanford.edu/)是一个使用 Oracle 作为数据库管理软件的关 系数据库。 SMD 存储微阵列实验的原始数据、归一化数据和对应的图像文件。自从 2002 年 1 月 1 日起,到 2004 年 4 月已包括 85 篇学术论文,超过 3500 个双色点样 cDNA 微阵列的实验数据,并且每年增加 1000 个微阵列实验的数据。另外, SMD 提供数据获 取、分析和可视化的界面,目前包括层次聚类和自组织映射等方法,还将加入 k- 平均聚类、 单值分解和丢失值归纳等方法。 除了以上 3 个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 YMD (Yale Microarray Database , http://info.med.yale.edu/ microarray/) 、 ArrayDB
(http://genome.nhgrinihgov/arraydb/)BodyMap(http://bodymap.imsu-tokyo.ac.jp/) Expressdb(http://twod.medharvard.edu/expressdb/)HugeIndex(humanGeneExpression Index,htp/ vww. hugeindex org/ welcome/ index htm)等,这些数据库收集的数据往往具 有物种特异性,使用比较方便 72基因表达数据预处理 次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个GXN的数据矩阵M,通常情况下G>>N,其 中每一个元素表示第i个基因在第j个条件下的表达水平值(在多数应用情况下,是 Rao值或 log(ratio)0),行向量x1=(1,不2,…)代表基因在N个条件下的表 达水平,称为基因i的表达谱,列向量x3=(8” 代表某一条件下的各基因 的表达水平。 x2N X (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据(单个异常大或小的峰谷信号),同时处理缺 失数据。DNA微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于100的数据全部设置为100。DNA微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的mRNA丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在cDNA微阵列双色实验中,最 后得到的往往是 Ratio值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio值。在计算 Ratio值时 如果参考样本的信号强度很小,就可能得到很大的 Ratio。如果一个基因谱中仅仅存在单 个特别大的 Ratio值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和PCA)来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵M中删除:如果没有
( http://genome.nhgri.nih.gov/arraydb/ )、 BodyMap( http://bodymap.ims.u-tokyo.ac.jp/ )、 ExpressDB( http://twod.med.harvard.edu/ExpressDB/) 、 HuGE Index(Human Gene Expression Index , http://www.hugeindex.org/welcome/index.html) 等,这些数据库收集的数据往往具 有物种特异性,使用比较方便。 7.2 基因表达数据预处理 一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个 G×N 的数据矩阵 M,通常情况下 G>>N,其 中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量 代表基因 i 在 N 个条件下的表 达水平,称为基因 i 的表达谱,列向量 代表某一条件下的各基因 的表达水平。 (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ,同时处理缺 失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在 cDNA 微阵列双色实验中,最 后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio 值。在计算 Ratio 值时, 如果参考样本的信号强度很小,就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单 个特别大的 Ratio 值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和 PCA )来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵 M 中删除;如果没有
达到阈值但存在缺失项,对这些缺失项可以进行插值。以0代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于k近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此,DNA微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根: ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程 许多DNA微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio值,对于 Ratio 值,在大多数情况下是转换到对数(log)空间中进行处理,常用的对数底为2,e,10。考虑 时间序列上的基因表达数据,实验结果是相对于0时刻的表达水平。如图81所示,假 设在时间点1,基因的表达水平没有改变,在时间点2,上调2倍,而时间点3,下调 2倍,原始的比率值分别为1.0、20、0.5。在大多数应用中,需要把上调2倍和下 调2倍看作是变化的相同幅度,只是方向不同。在 Ratio空间中,时间点1和2之间的 差异是+10,而时间点1和3之间是-0.5,从数学角度看,上调2倍的数值是下调 倍的2倍。而在log空间中,(为了简化,用2为底),这三个数据点分别为0、1.0 1.0,上调2倍与下调2倍是关于0对称的。因此,对数转换可以使小于1的值变 大于1的值变小,从而使它们关于0对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在log空间中进行的
达到阈值但存在缺失项,对这些缺失项可以进行插值。以 0 代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估。 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分, 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此, DNA 微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根; ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程。 许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值,对于 Ratio 值,在大多数情况下是转换到对数 (log) 空间中进行处理,常用的对数底为 2, e, 10 。考虑 时间序列上的基因表达数据,实验结果是相对于 0 时刻的表达水平。如 图 8.1 所示,假 设在时间点 1 ,基因的表达水平没有改变,在时间点 2 ,上调 2 倍,而时间点 3 ,下调 2 倍,原始的比率值分别为 1.0 、 2.0 、 0.5 。在大多数应用中,需要把上调 2 倍和下 调 2 倍看作是变化的相同幅度,只是方向不同。在 Ratio 空间中,时间点 1 和 2 之间的 差异是 +1.0 ,而时间点 1 和 3 之间是 -0.5 ,从数学角度看,上调 2 倍的数值是下调 2 倍的 2 倍。而在 log 空间中,(为了简化,用 2 为底),这三个数据点分别为 0 、 1.0 、 -1.0 ,上调 2 倍与下调 2 倍是关于 0 对称的。因此,对数转换可以使小于 1 的值变大, 大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在 log 空间中进行的
2.5 Rat 2 log2(Ratio) 1.5 0.5 0.5 -1.5 数据点 图7.1表达数据的Rato和log2( Ratio)表示 数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相 关系数,缺点是在标准差接近0的时候,会产生大的噪声,这也是首先要进行数据过滤的 一个重要理由。数据标准化按如下公式进行 ∑(x x=∑ 通过标准化,使得每个基因表达谱的平均值为0,标准差为1。如果要求所有的数据x分 布在[0,1之间,还需要进行如下转换 其中,=m(x,x,…“,不),=m(x,x2“不》),而要求数据满足分布在 ab]区间,则变换如下
图 7.1 表达数据的 Ratio 和 log2(Ratio) 表示 数据的标准化是将所有的数据转换到同一个范围内,这样做的好处是方便比较和计算相 关系数,缺点是在标准差接近 0 的时候,会产生大的噪声,这也是首先要进行数据过滤的 一个重要理由。数据标准化按如下公式进行: (7-2) (7-3) 通过标准化,使得每个基因表达谱的平均值为 0 ,标准差为 1 。如果要求所有的数据 x 分 布在 [0 , 1] 之间,还需要进行如下转换 : (7-4) 其中, , , 而要求数据满足分布在 [a,b] 区间,则变换如下:
(b-a)(x-xmin) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同 的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这 样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就 是平均值/中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除 某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正 Ratio值的系统偏差,它 们是由于RNA数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有 的基因与一个固定数值的Rato有放大的效应。在log空间的平均值和中值中心化有校正 这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望 比率是10(在log空间中为0)。通常,更多的是使用中值中心化 目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有 说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体 应用时,往往是根据分析目的和个人经验选择不同的方法 73基因表达差异的显着性分析 用于检测基因表达水平的DNA微阵列实验,应用之一是比较实验,目的是比较两个条 件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的 特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但 是,由于DNA微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析 的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识 别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件 中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时 也具有生物学意义。常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两 个条件下的 Ratio值,若大于给定阈值,则为表达差异显著的基因:第二类方法采用统计 分析中的t检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性 第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性 例如贝叶斯方法。 73.1倍数分析 早期基于cDNA微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基 因在两个条件下表达水平的 Ratio值。用g表示基因g在条件i下的表达水平测量值, 因此, Ratio值为g=g12,可表示基因g在条件1和2下的表达水平差异。对 于cDNA微阵列实验,是将两个条件下的样本混合后与cDNA微阵列进行杂交实验,得 到的是成对数据,对每次实验得到的数据计算,最后计算重复实验的平均。而对于 寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其
(7-5) 还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同 的对照样本比较,每一个基因,相对于对照样本中那个基因的表达水平,都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助,对照样本中的基因表达量是独立于分析的。这 样,可以通过调整每一个基因的数值来反映系列观察值的变化,例如平均值或者中值。这就 是平均值 / 中值中心化,中心化可以减少对照样本的影响。中心化数据同样可以用于去除 某些类型的偏差。例如,许多双色荧光杂交实验的结果没有校正 Ratio 值的系统偏差,它 们是由于 RNA 数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有 的基因与一个固定数值的 Ratio 有放大的效应。在 log 空间的平均值和中值中心化有校正 这种偏差的效果。数据中心化是基于这样的一种假设,在特定的实验中,基因的平均值期望 比率是 1.0( 在 log 空间中为 0) 。通常,更多的是使用中值中心化。 目前对数据预处理这种策略的作用还不是很清楚,还没有人进行系统的研究,提供有 说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体 应用时,往往是根据分析目的和个人经验选择不同的方法。 7.3 基因表达差异的显著性分析 用于检测基因表达水平的 DNA 微阵列实验,应用之一是比较实验,目的是比较两个条 件下的基因表达差异,从中识别出与条件相关的特异性基因,例如,识别可用于肿瘤分型的 特异基因等。为了提高实验的可靠性,对于同一样本,往往有两次或更多次的重复实验,但 是,由于 DNA 微阵列的费用仍然很昂贵,不可能重复足够多的次数来满足实验数据分析 的要求,因此需要采用统计方法来分析这些数据。对于这些表达数据的分析,目的就是要识 别在两个条件下有显著表达差异的基因。何谓显著表达差异?通常是指一个基因在两个条件 中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时 也具有生物学意义。常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两 个条件下的 Ratio 值,若大于给定阈值,则为表达差异显著的基因;第二类方法采用统计 分析中的 t 检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性; 第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性, 例如贝叶斯方法。 7.3.1 倍数分析 早期基于 cDNA 微阵列技术的比较实验,用倍数来分析基因表达水平差异,即计算基 因在两个条件下表达水平的 Ratio 值。用 表示基因 g 在条件 i 下的表达水平测量值, 因此, Ratio 值为 ,可表示基因 g 在条件 1 和 2 下的表达水平差异。对 于 cDNA 微阵列实验,是将两个条件下的样本混合后与 cDNA 微阵列进行杂交实验,得 到的是成对数据,对每次实验得到的数据计算 ,最后计算重复实验的平均 。而对于 寡核苷酸芯片,首先分别计算两个样本的重复实验的归一化表达水平的平均值,然后计算其
Rato值当'g=1时,基因g的表达水平没有改变,而1意味着基因g在 两个条件下存在表达差异,特别是1,表示 在条件1是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超 过一个常数,典型的常数是2,即>2或</2,则认为该基因的表达差异是显著的。 然而,对表达数据仔细考察后可以发现,这样简单的2倍法并不能产生最优的结果,因为 因子2在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用2倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于2就具有生 物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行 确定。 732t检验 于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较 多的是采用假设检验,包括两个条件下的t检验和多个条件下的方差分析( ANOVA) 这里仅仅介绍t检验,关于 ANOVA请参考相应的统计分析书籍 零假语,H0:B=“B2,即假设两个条件下的平均表达水平是相等的,与之对应的备 选假设是 H1:ag1≠“g2 统计量的计算公式如下 (7-6) 其中 ,"为某一条件下的重复实验次 数gy是基因g在第i个条件下第j次重复实验的表达水平测量值。 根据统计量『值,可以得到p值,它表示在零假设成立的情况下,出现该数据的概率。 如果p值小于给定的显著性水平,就拒绝零假设,即认为基因g在两个条件下的表达差异 是显著的。因为在t检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克 服固定倍数阈值方法的一些缺点。然而,对于DNA微阵列数据的t检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数经常 较小,"2=2、3的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得 到的t值就较大,因此会导致较高的假发现率(FDR, False Discovery Rate),即通过t检 验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺 点
Ratio 值。当 =1 时,基因 g 的表达水平没有改变,而 1 意味着基因 g 在 两个条件下存在表达差异,特别是 1 ,表示 在条件 1 是上调的。在具体应用中,如果一个基因的平均表达水平在两个条件下的变化超 过一个常数,典型的常数是 2 ,即 >2 或 <1/2 ,则认为该基因的表达差异是显著的。 然而,对表达数据仔细考察后可以发现,这样简单的 2 倍法并不能产生最优的结果,因为 因子 2 在不同的表达水平上有相当不同的显著性。对于低表达水平的基因,其信噪比太低, 用 2 倍法作为判断条件太宽松,而对于高表达基因,条件又太苛刻,往往小于 2 就具有生 物学意义。在具体应用中,并没有明确的阈值,往往根据分析的具体要求由数据分析者自行 确定。 7.3.2 t 检验 于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较 多的是采用假设检验,包括两个条件下的 t 检验和多个条件下的方差分析( ANOVA ), 这里仅仅介绍 t 检验,关于 ANOVA 请参考相应的统计分析书籍。 零假设为 ,即假设两个条件下的平均表达水平是相等的,与之对应的备 选假设是 。 t 统计量的计算公式如下: (7-6) 其中 , , 为某一条件下的重复实验次 数,Xgij 是基因 g 在第 i 个条件下第 j 次重复实验的表达水平测量值。 根据统计量 值,可以得到 p 值,它表示在零假设成立的情况下,出现该数据的概率。 如果 p 值小于给定的显著性水平,就拒绝零假设,即认为基因 g 在两个条件下的表达差异 是显著的。因为在 t 检验中,两个总体平均值之间的距离被样本的标准差归一化,可以克 服固定倍数阈值方法的一些缺点。然而,对于 DNA 微阵列数据的 t 检验的基本问题是, 即使用当前的高通量检测技术,实验仍然花费很大或者实验过程很冗长,重复次数 经常 较小, =2 、 3 的小样本仍然非常普通。由于样本量小,导致总体方差被严重低估,得 到的 t 值就较大,因此会导致较高的假发现率 (FDR , False Discovery Rate) ,即通过 t 检 验得到的结果中表达差异不显著的基因数目较多。这样,需要更好的分析方法来克服这些缺 点