后验分布的参数以一种合理的方式将先验分布的信息和数据信息结合了起来。后验分

正在加载图片...

后验分布的参数以一种合理的方式将先验分布的信息和数据信息结合了起来。后验分布是贝叶斯分析的基本对象,它包含了和所有可能取值的相关信息,可以通过多种方法估计 74基因表达谱聚类分析对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵M中找出显著性结构,结构类型包括全局模型( model)和局部模式 ( pattern))。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis)、描述建模( descriptive modeling)、分类、聚类、回归和机器学习等基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、K均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 741相似性度量函数对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近:反之,则表达模式差异大常见的相似性度量有距离、点积、相关系数( correlation coefficient)、互信息( mutual nformation)等。假设两个基因表达谱分别为X=(x1x2,,xm)和Y=(y1,y 2,ym),距离函数d(x,Y)必须满足如下条件 d(x, Y)=0后验分布的参数以一种合理的方式将先验分布的信息和数据信息结合了起来。后验分布是贝叶斯分析的基本对象，它包含了和所有可能取值的相关信息，可以通过多种方法估计和。 7.4 基因表达谱聚类分析对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题，分析任务是从数据矩阵 M 中找出显著性结构，结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题，所采用的方法包括通过可视化进行探索性数据分析（ Exploratory Data Analysis ）、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。基因表达谱分析所采用的常用方法是聚类，其目的就是将基因分组。从数学的角度，聚类得到的基因分组，一般是组内各成员在数学特征上彼此相似，但与其它组中的成员不同。从生物学的角度，聚类分析方法所隐含的生物学意义或基本假设是，组内基因的表达谱相似，它们可能有相似的功能。然而，产物有相同功能的编码基因（例如对其它蛋白质有磷酸化作用），不一定共享相似的转录模式。相反，有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在，大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱，特别是被共同的转录因子共调控的基因，或者产物构成同一个蛋白复合体，或者参与相同的调控路径。因此，在具体的应用中，可以根据对相似表达谱的基因进行聚类，从而指派未知基因的功能。聚类分析是模式识别和数据挖掘中普遍使用的一种方法，是基于数据的知识发现的有效方法，特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法，不需要任何先验领域知识，它根据数学特征提取分类标准，对数据进行分类，这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多，主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 7.4.1 相似性度量函数对基因表达谱进行聚类分析之前，必须首先确定反映不同基因表达谱相似程度的度量函数，根据该函数可以将相似程度高的基因分为一类。在实际计算中，还可以用距离代替相似的概念，相似性度量被转化为两个基因表达谱之间的距离。距离越小，表达模式越相近；反之，则表达模式差异大。常见的相似性度量有距离、点积、相关系数（ correlation coefficient ）、互信息（ mutual information ）等。假设两个基因表达谱分别为 X = （ x 1 ,x 2 ,…,x m ）和 Y = （ y 1 ,y 2 ,…,y m ） , 距离函数 d( X ， Y ) 必须满足如下条件： d( X ， Y ) ≧ 0

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第七章微阵列芯片