其中，Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和，Sm

正在加载图片...

其中,S(ij)是序列i和j随机化之后的比对得分的加权和,Sm()是两条序列所有可能的比对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于0和1之间, 当两个序列完全一致时,距离为0:当两个序列差异很大时,距离接近于1。如果在上式中令Sj)=0,则计算公式变为 d(,j)=1 S(,) (6-2) (2, 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 d6,=-n, (6-3) 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM矩阵、 BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有2种可能的状况,即具有与不具有某种特征,通常用“0”或“1”表示。例如,DNA序列上的某个位置如果是剪切位点,其特征值为1,否则为0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列中某一位置来说,其可能的碱基有A、T、G、C共4种。可以将特征数据转换为距离数据如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 814分子系统发生分析过程分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析:(2)系统发生树的构造:(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间其中，Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和，Smax(i,j)是两条序列所有可能的比对的最大值（当两条序列相同时，取最大值）。两个序列归一化距离的值处于 0 和 1 之间，当两个序列完全一致时，距离为 0；当两个序列差异很大时，距离接近于 1。如果在上式中令 Sr(i,j)=0，则计算公式变为：为了适合于处理相似性较小的序列，可以进一步修改距离计算公式：序列比对得分的加权和可以根据常用的打分矩阵获得，如果待处理的序列是蛋白质，则用 PAM 矩阵、BLOSUM 矩阵等；如果待处理的序列是 DNA 或者 RNA，则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵。距离是系统发生分析时所使用的一类数据，另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有 2 种可能的状况，即具有与不具有某种特征，通常用“0”或“1”表示。例如，DNA 序列上的某个位置如果是剪切位点，其特征值为 1，否则为 0。多态离散特征具有两种以上可能的状态，如核酸的序列信息，对序列中某一位置来说，其可能的碱基有Ａ、Ｔ、Ｇ、Ｃ共 4 种。可以将特征数据转换为距离数据。如果建立所有可能状态之间相似性的度量，特征数据就很容易被转换成距离数据。 8.1.4 分子系统发生分析过程分子系统发生分析主要分成三个步骤：（1）分子序列或特征数据的分析；（2）系统发生树的构造；（3）结果的检验。其中，第一步的作用是通过分析，产生距离或特征数据，为建立系统发生树提供依据。系统发生树的构建方法很多种。根据所处理数据的类型，可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法，利用所有物种或分类单元间的进化距离，依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对，计算序列之间

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第八章系统发育分析