正在加载图片...
其中,S(ij)是序列i和j随机化之后的比对得分的加权和,Sm()是两条序列所有可能的比 对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于0和1之间, 当两个序列完全一致时,距离为0:当两个序列差异很大时,距离接近于1。如果在上式中 令Sj)=0,则计算公式变为 d(,j)=1 S(,) (6-2) (2, 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 d6,=-n, (6-3) 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM矩阵、 BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷 酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵 距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散 特征数据可分为二态特征与多态特征。二态的离散特征只有2种可能的状况,即具有与不具 有某种特征,通常用“0”或“1”表示。例如,DNA序列上的某个位置如果是剪切位点,其特 征值为1,否则为0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列 中某一位置来说,其可能的碱基有A、T、G、C共4种。可以将特征数据转换为距离数据 如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 814分子系统发生分析过程 分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析:(2)系统发 生树的构造:(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据 系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法 大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离 依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间其中,Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和,Smax(i,j)是两条序列所有可能的比 对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于 0 和 1 之间, 当两个序列完全一致时,距离为 0;当两个序列差异很大时,距离接近于 1。如果在上式中 令 Sr(i,j)=0,则计算公式变为: 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式: 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM 矩阵、BLOSUM 矩阵等;如果待处理的序列是 DNA 或者 RNA,则用等价矩阵、核苷 酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵。 距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散 特征数据可分为二态特征与多态特征。二态的离散特征只有 2 种可能的状况,即具有与不具 有某种特征,通常用“0”或“1”表示。例如,DNA 序列上的某个位置如果是剪切位点,其特 征值为 1,否则为 0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列 中某一位置来说,其可能的碱基有A、T、G、C共 4 种。可以将特征数据转换为距离数据。 如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 8.1.4 分子系统发生分析过程 分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)系统发 生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据。 系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法 大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离, 依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有