正在加载图片...
达到阈值但存在缺失项,对这些缺失项可以进行插值。以0代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于k近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此,DNA微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根: ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程 许多DNA微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio值,对于 Ratio 值,在大多数情况下是转换到对数(log)空间中进行处理,常用的对数底为2,e,10。考虑 时间序列上的基因表达数据,实验结果是相对于0时刻的表达水平。如图81所示,假 设在时间点1,基因的表达水平没有改变,在时间点2,上调2倍,而时间点3,下调 2倍,原始的比率值分别为1.0、20、0.5。在大多数应用中,需要把上调2倍和下 调2倍看作是变化的相同幅度,只是方向不同。在 Ratio空间中,时间点1和2之间的 差异是+10,而时间点1和3之间是-0.5,从数学角度看,上调2倍的数值是下调 倍的2倍。而在log空间中,(为了简化,用2为底),这三个数据点分别为0、1.0 1.0,上调2倍与下调2倍是关于0对称的。因此,对数转换可以使小于1的值变 大于1的值变小,从而使它们关于0对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在log空间中进行的达到阈值但存在缺失项,对这些缺失项可以进行插值。以 0 代替缺失项,或用基因表达谱 中的平均值或中值进行替代,这些方法都比较简单,但是否与真实值接近,很难进行评估。 较为复杂和可靠的方法是,分析基因表达谱的模式,从中得到相邻数据点之间的关系,根据 这种关系,利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法,需要有足够的 完整的模式来发现有缺失值的相邻模式,需要有足够的值来确定它们的邻居。 在细胞中,基因表达有时空特异性,在某一条件下,能够表达的基因占基因总数的少部分, 而大多数基因仅维持基础转录或不转录,转录本丰度很小,因此, DNA 微阵列实验得到 的数据矩阵中存在大量的基因表达谱曲线是平坦的,即基因表达水平变化很小。对于这些基 因,往往不是生物学家所关心的,而它们的存在,却会大大增加数据分析的复杂性,而且会 对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱 究竟占总体数据的多少比例?这个问题是与分析目的密切相关的,例如对于分析细胞周期相 关的基因表达,保留的基因可能较多;而对于肿瘤特异基因表达谱分析,保留的基因往往较 少。过滤基因所采用的标准有:①基因表达谱中最大值与最小值的差;②标准差;③均方根; ④绝对值大于阈值的数据个数等。根据分析的对象和目的,可以选择以上一个或多个标准, 确定阈值,从而选择基因表达谱。 基因表达谱数据经过过滤,在进行聚类分析等操作前,往往还需要进行数据转换。数据转 换是将数据变换为适合数据挖掘的形式,可以根据需要构造出新的数据属性以帮助理解分析 数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。因此,数据转换包括对 数转换和标准化两个过程。 许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值,对于 Ratio 值,在大多数情况下是转换到对数 (log) 空间中进行处理,常用的对数底为 2, e, 10 。考虑 时间序列上的基因表达数据,实验结果是相对于 0 时刻的表达水平。如 图 8.1 所示,假 设在时间点 1 ,基因的表达水平没有改变,在时间点 2 ,上调 2 倍,而时间点 3 ,下调 2 倍,原始的比率值分别为 1.0 、 2.0 、 0.5 。在大多数应用中,需要把上调 2 倍和下 调 2 倍看作是变化的相同幅度,只是方向不同。在 Ratio 空间中,时间点 1 和 2 之间的 差异是 +1.0 ,而时间点 1 和 3 之间是 -0.5 ,从数学角度看,上调 2 倍的数值是下调 2 倍的 2 倍。而在 log 空间中,(为了简化,用 2 为底),这三个数据点分别为 0 、 1.0 、 -1.0 ,上调 2 倍与下调 2 倍是关于 0 对称的。因此,对数转换可以使小于 1 的值变大, 大于 1 的值变小,从而使它们关于 0 对称化,这种变换是否反映了一定的生物学意义,能 更直观的了解基因的上调或下调的幅度?尚没有定论,但是对于大多数基因表达数据分析过 程,都是在 log 空间中进行的
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有