正在加载图片...
距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行 为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基 因A调控B,B调控C,调控还有正性调控和负性调控之分。对于这些调控关系,它 们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相 等。如何从数据中发现这些复杂的基因关系呢?互信息可能是一种有用的度量指标,其定 义如下 MI(X,Y)=H (X)+H(Y-H(X, Y) H(x)=∑p(x)g2p() (8-19) M(X,Y)是向量X和Y的互信息,H(X),H(Y)分别是Ⅹ和Y的熵,H(X,Y) 是向量XY的联合熵。归一化互信息NM定义如下: NM(X,Y)=M(X,Y)/max{H(x),H(Y)](8-20) NMⅠ独立于单个信息熵,抓住了模式上的相似性。互信息聚类分析没有规则上的约束,不 象欧氏距离。 目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式 空间是不存在的,选择何种度量函数依赖于我们要解决的问题。 742聚类方法 对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类 的先验知识,所以通常采用无监督学习方法。在基因表达数据分析方面,层次式聚类、K 均值、自组织映射神经网络在应用中是常用的方法。下面主要介绍这几种常用的聚类方法, 并简单介绍一些其它方法 7.21简单聚类 假设有G个基因,它们的表达谱分别用向量表示为x1,x2,…x。令任意一个基因 的表达向量为第一个聚类的中心21,假设选择21=x。然后计算x2到x1的距离 D21,如果D21大于给定的阈值T,则说明x2不属于第一类,应该分到另外的类。在 这种情况下,建立一个新的聚类中心x2=x2.:如果D21小于阈值T,则将x2分到第 一类中。接着处理其它基因,在处理第i个基因时,首先计算该基因的表达谱与现有各类 中心的距离,假设与第j类的距离D最小,并且Dij<T,则将基因i分配到第j类 否则生成一个新类,该类的中心为第i个基因的表达向量距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行 为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基 因 A 调控 B , B 调控 C ,调控还有正性调控和负性调控之分。对于这些调控关系,它 们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相 等。如何从数据中发现这些复杂的基因关系呢? 互信息可能是一种有用的度量指标,其定 义如下 : MI ( X , Y ) =H ( X ) +H ( Y ) -H ( X , Y ) (8-18) (8-19) MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分别是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的联合熵。 归一化互信息 NMI 定义如下: NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ] (8-20) NMI 独立于单个信息熵,抓住了模式上的相似性。互信息聚类分析没有规则上的约束,不 象欧氏距离。 目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式 空间是不存在的,选择何种度量函数依赖于我们要解决的问题。 7.4.2 聚类方法 对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类 的先验知识,所以通常采用无监督学习方法。 在基因表达数据分析方面,层次式聚类、 K 均值、自组织映射神经网络在应用中是常用的方法。 下面主要介绍这几种常用的聚类方法, 并简单介绍一些其它方法。 7.4.2.1 简单聚类 假设有 G 个基因,它们的表达谱分别用向量表示为 。令任意一个基因 的表达向量为第一个聚类的中心 , 假设选择 。然后计算 到 的距离 D21 ,如果 D21 大于给定的阈值 T ,则说明 不属于第一类,应该分到另外的类。在 这种情况下,建立一个新的聚类中心 ;如果 D21 小于阈值 T ,则将 分到第 一类中。接着处理其它基因,在处理第 i 个基因时,首先计算该基因的表达谱与现有各类 中心的距离,假设与第 j 类的距离 Dij 最小,并且 Dij<T ,则将基因 i 分配到第 j 类; 否则生成一个新类,该类的中心为第 i 个基因的表达向量
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有