正在加载图片...
(http://genome.nhgrinihgov/arraydb/)BodyMap(http://bodymap.imsu-tokyo.ac.jp/) Expressdb(http://twod.medharvard.edu/expressdb/)HugeIndex(humanGeneExpression Index,htp/ vww. hugeindex org/ welcome/ index htm)等,这些数据库收集的数据往往具 有物种特异性,使用比较方便 72基因表达数据预处理 次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个GXN的数据矩阵M,通常情况下G>>N,其 中每一个元素表示第i个基因在第j个条件下的表达水平值(在多数应用情况下,是 Rao值或 log(ratio)0),行向量x1=(1,不2,…)代表基因在N个条件下的表 达水平,称为基因i的表达谱,列向量x3=(8” 代表某一条件下的各基因 的表达水平。 x2N X (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据(单个异常大或小的峰谷信号),同时处理缺 失数据。DNA微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于100的数据全部设置为100。DNA微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的mRNA丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在cDNA微阵列双色实验中,最 后得到的往往是 Ratio值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio值。在计算 Ratio值时 如果参考样本的信号强度很小,就可能得到很大的 Ratio。如果一个基因谱中仅仅存在单 个特别大的 Ratio值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和PCA)来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵M中删除:如果没有( http://genome.nhgri.nih.gov/arraydb/ )、 BodyMap( http://bodymap.ims.u-tokyo.ac.jp/ )、 ExpressDB( http://twod.med.harvard.edu/ExpressDB/) 、 HuGE Index(Human Gene Expression Index , http://www.hugeindex.org/welcome/index.html) 等,这些数据库收集的数据往往具 有物种特异性,使用比较方便。 7.2 基因表达数据预处理 一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,包含成千上万个基因在细 胞中的相对或绝对丰度,不同条件(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同 病人等)下的全基因组表达数据就构成了一个 G×N 的数据矩阵 M,通常情况下 G>>N,其 中每一个元素 表示第 i 个基因在第 j 个条件下的表达水平值(在多数应用情况下,是 Ratio 值或 log(Ratio) ),行向量 代表基因 i 在 N 个条件下的表 达水平,称为基因 i 的表达谱,列向量 代表某一条件下的各基因 的表达水平。 (7-1) 对基因表达数据进行聚类、分类等数据分析之前,往往需要进行预处理,包括对丢失数据 进行填补、清除不完整的数据或合并重复数据等数据清洗,根据分析的目的进行数据过滤, 以及针对分析方法选择合适的数据转换方法等。 数据清洗是数据分析前必须进行的一项工作,对于基因表达数据,目的是去除表达水平 是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ,同时处理缺 失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的,每个点的信号强度是前 景信号减去背景信号,因此有时会出现负值或很小的值,显然负值是没有生物学意义的。对 于这些数据点,通过数据清洗过程可以置为缺失或赋予统一的数值,例如,对于寡核苷酸芯 片数据,可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件 和芯片的因素,检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系, 因此,通常是采用两个条件下的信号强度的比值,例如,在 cDNA 微阵列双色实验中,最 后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度,然而在处理一组数据 时,也往往选择一个样本作为对照样本,将实验数据转换成 Ratio 值。在计算 Ratio 值时, 如果参考样本的信号强度很小,就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单 个特别大的 Ratio 值,称之为异常数据点,这往往是由于噪声造成的。对于这个异常数据 点,必须去除。数据的缺失对于某些后续数据分析方法(例如层次式聚类和 PCA )来说有 着非常大的影响,甚至是致命性的,这时必须采取相应的方法。一个简单方法是直接过滤掉 这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值,计算行向量或列向量中的 缺失项数目,如果达到该阈值,则将该数据项所在行或列从数据矩阵 M 中删除;如果没有
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有