《生物信息学》课程教学资源（电子讲义）第八章系统发育分析.pdf_大学文库

81分子系统发生与系统发生树 811分子系统发生分析系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。经典系统发生学研究所涉及的特征主要是生物表型( phenotype).特征,所谓的表型特征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的生化的以及行为习性的特征。通过表型比较来推断生物体的基因型( genotype),研究物种之间的进化关系。但是,利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似的表型,这是由称为趋同进化( convergent evolution)的过程造成的。例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同- 个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三种生物体并不具有密切的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭。这说明表型有时候会误导我们,表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是,对于许多生物体很难检测到可用来进行比较的表型特征。例如,即使用显微镜检査,也难以发现细菌的明显特性。当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在是少之又少。随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次。科学家认为, 现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统发生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕在分子水平上研究生物之间的关系早在20世纪初就开始了。科学家发现,当把一个生物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系

8.1 分子系统发生与系统发生树 8.1.1 分子系统发生分析系统发生学是进化生物学的一个重要研究领域，系统发生分析早在达尔文时代就已经开始。从那时起，科学家们就开始寻找物种的源头，分析物种之间的进化关系，给各个物种分门别类。经典系统发生学研究所涉及的特征主要是生物表型(phenotype)特征，所谓的表型特征主要指形态学的（结构的）特征，如生物体的大小、颜色、触角个数，也包括某些生理的、生化的以及行为习性的特征。通过表型比较来推断生物体的基因型(genotype)，研究物种之间的进化关系。但是，利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似的表型，这是由称为趋同进化(convergent evolution)的过程造成的。例如，如果一个生物学家按照生物体是否有眼睛来构建进化树，那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中，因为它们都有光探测器官。在这个例子中，很明显这三种生物体并不具有密切的关系，在其它特征上有天壤之别，就是它们眼睛的构造也大相径庭。这说明表型有时候会误导我们，表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是，对于许多生物体很难检测到可用来进行比较的表型特征。例如，即使用显微镜检查，也难以发现细菌的明显特性。当我们试图比较关系较远的生物体的时候，第三个问题又出现了，即什么样的表型特征能用来比较呢？例如，分析细菌、蠕虫和哺乳动物，它们之间的共同特征实在是少之又少。随着人们对生物的认识从宏观发展到微观，科学家对物种分类的依据也从宏观上的形态发展到了微观上的分子，并且有了突破性的进展，系统发生分析进入分子层次。科学家认为，现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的，作为生物遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息，可用于系统发生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势，所得到的结果更加科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息，作为物种的特征，通过比较生物分子序列，分析序列之间的关系，构造系统发生树，进而阐明各个物种的进化关系。当然，这些分子不仅在序列上保留进化的痕迹，它们的结构也保留着进化的痕迹。在分子水平上研究生物之间的关系早在 20 世纪初就开始了。科学家发现，当把一个生物体的血液注射到另一个测试生物体中时，产生免疫反应的程度与这两个生物体的进化关系

直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20世纪中期,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20世纪60年代,蛋白质测序成为可能:20世纪70年代,研究者开始能够获得基因组信息,特别是DNA序列。蛋白质序列和DNA序列为分子系统发生分析提供了可靠的数据。在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大:相反,两个序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世界不同地区许多人的线粒体DNA,分析结果表明,所有现代人都是一个非洲女性的后代。线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完全传到子代,不与父代 DNA重组。由于DNA分子非常稳定,所以我们既可以通过DNA分析活着的生物,也可以分析死去的生物,甚至分析已经绝种的生物。当然,用细胞核基因来研究系统发生关系时, 遇到的一个严重的问题是,基因常常会被复制,导致在个体基因组中,一个基因可能有若干个拷贝。在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。系统发生分析一般是建立在分子钟( molecular clock)基础上的。生物随着时间的推进而演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中, 有着相似功能约束的位点的分子进化速率则几乎完全一致。20世纪60年代最早由 Emile Zuckerkandl和 Linus pauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较

直接相关，由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20 世纪中期，分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一些浅层特征上，如分子大小和电荷，来分离和比较相关的蛋白质。20 世纪 60 年代，蛋白质测序成为可能；20 世纪 70 年代，研究者开始能够获得基因组信息，特别是 DNA 序列。蛋白质序列和 DNA 序列为分子系统发生分析提供了可靠的数据。在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息，可以推断物种之间的系统发生关系。其基本原理非常简单，从一条序列转变为另一条序列所需要的变换越多，那么，这两条序列的相关性就越小，从共同祖先分歧的时间就越早，进化距离就越大；相反，两个序列越相似，那么它们之间的进化距离就可能越小。为了便于分析，一般假设序列变化的速率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子，科学家分析了取自世界不同地区许多人的线粒体 DNA，分析结果表明，所有现代人都是一个非洲女性的后代。线粒体 DNA 非常适合于系统发生分析，因为线粒体 DNA 从母体完全传到子代，不与父代 DNA 重组。由于 DNA 分子非常稳定，所以我们既可以通过 DNA 分析活着的生物，也可以分析死去的生物，甚至分析已经绝种的生物。当然，用细胞核基因来研究系统发生关系时，遇到的一个严重的问题是，基因常常会被复制，导致在个体基因组中，一个基因可能有若干个拷贝。在进化过程中，这些拷贝各自演变，形成两个或更多的相似基因。在对不同物种的基因进行比较时，如果选择这类基因，其分析结果的可靠性将存在问题。所有的生物都可以追溯到共同的祖先，生物的产生和分化就像树一样地生长、分叉，以树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生物起源的相对时间，两个分支点靠得越近，则对应的两群生物进化关系越密切。系统发生分析一般是建立在分子钟(molecular clock)基础上的。生物随着时间的推进而演化，进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中，有着相似功能约束的位点的分子进化速率则几乎完全一致。20 世纪 60 年代最早由 Emile Zuckerkandl 和 Linus Pauling 所做的蛋白质序列的比较研究表明，蛋白质同系物的替换率就算过了千百万年也能保持恒定，因此他们将氨基酸的变异积累比做分子钟。科学家们在比较

几种动物的血红蛋白、细胞色素C的序列后注意到:这些蛋白质的氨基酸取代速率在不同的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速率是不同的,但是两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地质年代那样,准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧时间的加大而增加,而DNA序列也存在这种规律。 Kimura进一步提出了具体的分子进化观点:对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子进化的速率,则该速率是大致恒定的:;功能上次要的分子(或者分子部分)的进化速率比功能重要的分子(或者分子部分)进化速率快:对现有分子结构或者功能破坏小的氨基酸替换比破坏力大的氨基酸替换发生得更加频繁尽管以上的分析给我们带来了很多希望,但是, Zuckerkandl和 Pauling的分子时钟假说还是有争议的。经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不致。关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑 812系统发生树一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生树由一系列节点( nodes)和分支( branches)组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点( terminal node)和内部节点( internal node)。在一般情况下,外部节点代表实际观察到的分类单元, 而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致在下面的讨论中,我们基本上以序列(DNA序列或蛋白质序列)作为分类单元。树节点间的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支系统发生树有许多形式:可能是有根树( rooted tree),也可能是无根树( unrooted tree) 可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树, scaled tree,树中标明分支的长度),也可能是无权值树(或非标度树, unscaled tree)。在一棵有根树中,有一个唯的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生

几种动物的血红蛋白、细胞色素 C 的序列后注意到：这些蛋白质的氨基酸取代速率在不同的种系间大致相同，即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速率是不同的，但是,两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间稳定的变异速率，不仅有助于确定物种间系统发生关系，而且能够像利用放射性衰变考察地质年代那样，准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧时间的加大而增加，而 DNA 序列也存在这种规律。Kimura 进一步提出了具体的分子进化观点：对于各物种的每个蛋白质，如果用每个位点每年发生的氨基酸替换次数作为衡量分子进化的速率，则该速率是大致恒定的；功能上次要的分子（或者分子部分）的进化速率比功能重要的分子（或者分子部分）进化速率快；对现有分子结构或者功能破坏小的氨基酸替换比破坏力大的氨基酸替换发生得更加频繁。尽管以上的分析给我们带来了很多希望，但是，Zuckerkandl 和 Pauling 的分子时钟假说还是有争议的。经典进化学家们认为形态的进化不够稳定，这与分子以稳定的速度变异不一致。关于分化时间也有不同意见，这些意见对这个假说的核心即进化率是稳定的表示质疑。 8.1.2 系统发生树一般来说，系统发生树是一种二叉树。所谓树，实际上是一个无向非循环图。系统发生树由一系列节点（nodes）和分支（branches ）组成，其中每个节点代表一个分类单元（物种或序列），而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点（terminal node）和内部节点（internal node）。在一般情况下，外部节点代表实际观察到的分类单元，而内部节点又称为分支点，它代表了进化事件发生的位置，或代表分类单元进化历程中的祖先。分类单元是一种由研究者选定的基本单位，在同一项研究中，分类单元一般应当一致。在下面的讨论中，我们基本上以序列（DNA 序列或蛋白质序列）作为分类单元。树节点间的连线称为分支，其中一端与叶节点相连的为外支，不与叶节点相连的为内支。系统发生树有许多形式：可能是有根树（rooted tree），也可能是无根树（unrooted tree）；可能是一般的树，也可能是二叉树；可能是有权值的树（或标度树，scaled tree，树中标明分支的长度），也可能是无权值树(或非标度树，unscaled tree)。在一棵有根树中，有一个唯一的根节点，代表所有其它节点的共同祖先，这样的树能够反映进化层次，从根节点历经进化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是，有的能由系统发生

基于单个同源基因差异构建的系统发生树称为基因树( gene tree,这比称作物种树 ( species tree)更为合理。因为这种树代表的仅仅是单个基因的进化历史,而不是它所在物种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种树之间的差异是很重要的,例如,假设只用HLA的等位基因来构建物种树,许多人将与大猩猩分在一起,而不是和其他人分在一起。 813距高和特征用于构建系统发生树的分子数据分成两类:(1)距离( distances)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异:(2)特征( characters数据,表示分子所具有的特征分子系统发生分析的目的是探讨物种之间的进化关系,其分析的对象往往是一组同源的序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手段,是进行系统发生分析的基础,一般采用基于两两比对渐进的多重序列比对方法,如 Clustalw程序。通过序列的比对,可以分析序列之间的差异,计算序列之间的距离。无论是DNA序列,还是蛋白质序列,都是由特定字母表中的字符组成的。计算序列之间距离的一个前提条件是要有一个字符替换模型,替换模型影响序列多重比对的结果,影响系统发生树的构造结果。在具体的分析过程中,需要选择一个合理的字符替换模型,参见第 3章的各种打分模型或代价、距离模型距离(或者相似度)是反映序列之间关系的一种度量,是建立系统发生树时所常用的类数据。在计算距离之前,首先进行序列比对,然后累加每个比对位置的得分。可以应用第 3章介绍的关于序列比较方法,直接计算序列之间的距离。如果在进行序列比较时使用的是打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离。令S(ij是序列和序列j各个比对位置得分的加权和,一种归一化的距离计算公式为 d(,)=1-、(a,0-s,(3 (6-1) Sa(2,-S,(

基于单个同源基因差异构建的系统发生树称为基因树（gene tree），这比称作物种树（species tree）更为合理。因为这种树代表的仅仅是单个基因的进化历史，而不是它所在物种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种树之间的差异是很重要的，例如，假设只用 HLA 的等位基因来构建物种树，许多人将与大猩猩分在一起，而不是和其他人分在一起。 8.1.3 距离和特征用于构建系统发生树的分子数据分成两类：（1）距离（distances）数据，常用距离矩阵描述，表示两个数据集之间所有两两差异；（2）特征(characters)数据，表示分子所具有的特征。分子系统发生分析的目的是探讨物种之间的进化关系，其分析的对象往往是一组同源的序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手段，是进行系统发生分析的基础，一般采用基于两两比对渐进的多重序列比对方法，如 ClustalW 程序。通过序列的比对，可以分析序列之间的差异，计算序列之间的距离。无论是 DNA 序列，还是蛋白质序列，都是由特定字母表中的字符组成的。计算序列之间距离的一个前提条件是要有一个字符替换模型，替换模型影响序列多重比对的结果，影响系统发生树的构造结果。在具体的分析过程中，需要选择一个合理的字符替换模型，参见第 3 章的各种打分模型或代价、距离模型。距离（或者相似度）是反映序列之间关系的一种度量，是建立系统发生树时所常用的一类数据。在计算距离之前，首先进行序列比对，然后累加每个比对位置的得分。可以应用第 3 章介绍的关于序列比较方法，直接计算序列之间的距离。如果在进行序列比较时使用的是打分函数或相似性度量函数，则需要将相似度（或者得分）转换成距离。令 S(i,j)是序列 i 和序列 j 各个比对位置得分的加权和，一种归一化的距离计算公式为：

其中,S(ij)是序列i和j随机化之后的比对得分的加权和,Sm()是两条序列所有可能的比对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于0和1之间, 当两个序列完全一致时,距离为0:当两个序列差异很大时,距离接近于1。如果在上式中令Sj)=0,则计算公式变为 d(,j)=1 S(,) (6-2) (2, 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 d6,=-n, (6-3) 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM矩阵、 BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有2种可能的状况,即具有与不具有某种特征,通常用“0”或“1”表示。例如,DNA序列上的某个位置如果是剪切位点,其特征值为1,否则为0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列中某一位置来说,其可能的碱基有A、T、G、C共4种。可以将特征数据转换为距离数据如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 814分子系统发生分析过程分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析:(2)系统发生树的构造:(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间

其中，Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和，Smax(i,j)是两条序列所有可能的比对的最大值（当两条序列相同时，取最大值）。两个序列归一化距离的值处于 0 和 1 之间，当两个序列完全一致时，距离为 0；当两个序列差异很大时，距离接近于 1。如果在上式中令 Sr(i,j)=0，则计算公式变为：为了适合于处理相似性较小的序列，可以进一步修改距离计算公式：序列比对得分的加权和可以根据常用的打分矩阵获得，如果待处理的序列是蛋白质，则用 PAM 矩阵、BLOSUM 矩阵等；如果待处理的序列是 DNA 或者 RNA，则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵。距离是系统发生分析时所使用的一类数据，另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有 2 种可能的状况，即具有与不具有某种特征，通常用“0”或“1”表示。例如，DNA 序列上的某个位置如果是剪切位点，其特征值为 1，否则为 0。多态离散特征具有两种以上可能的状态，如核酸的序列信息，对序列中某一位置来说，其可能的碱基有Ａ、Ｔ、Ｇ、Ｃ共 4 种。可以将特征数据转换为距离数据。如果建立所有可能状态之间相似性的度量，特征数据就很容易被转换成距离数据。 8.1.4 分子系统发生分析过程分子系统发生分析主要分成三个步骤：（1）分子序列或特征数据的分析；（2）系统发生树的构造；（3）结果的检验。其中，第一步的作用是通过分析，产生距离或特征数据，为建立系统发生树提供依据。系统发生树的构建方法很多种。根据所处理数据的类型，可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法，利用所有物种或分类单元间的进化距离，依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对，计算序列之间

的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类方法有非加权分组平均法( unweighted pair group method with arithmetic means)、邻近归并法( neighbor joining method)、 Fitch- Margoliash法、最小进化方法( minimum evolution)等另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点) 进化关系等。属于这一类的方法有最大简约法( maximum parsimony method)、最大似然法 ( maximum likelihood method)、进化简约法( evolutionary parsimony method)、相容性方法( compatibility)等。对相似性和距离数据,在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既可以用距离法,亦可以采用离散特征法。根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为三类。第一类是穷尽搜索方法,即产生所有可能的树,然后根据评价标准选择一棵最优的树。需要注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为n个分类单元建立系统发生树,则可能的有根树个数(Ng)和无根系统发生树个数(Nu)可用下面的算式计算得 (64) 22(x-2 可以看到,随着n的增加,可能的有根系统发生树和无根系统发生树的数目迅速增加。表 61中列出了一些n值,以及对应的有根树和无根树的数目。当n大于等于15时,可能的系统发生树数目变得非常惊人,但是只有其中的一棵树代表了待分析的基因或者物种之间的真实进化关系,我们的目的就是找出这棵反映真实进化关系的树。表6.1对不同的n,可能的有根树和无根树数目数据数目有根树数目无根树数目 15 15

的遗传距离，选出相似程度比较大或非常相关的序列对，利用遗传距离预测进化关系。这类方法有非加权分组平均法（unweighted pair group method with arithmetic means）、邻近归并法（neighbor joining method）、Fitch-Margoliash 法、最小进化方法（minimum evolution）等。另一类方法是基于离散特征的构建方法，利用的是具有离散特征状态的数据，如 DNA 序列中的特定位点的核苷酸。建树时，着重分析分类单位或序列间每个特征（如核苷酸位点）的进化关系等。属于这一类的方法有最大简约法（maximum parsimony method）、最大似然法（maximum likelihood method）、进化简约法（evolutionary parsimony method）、相容性方法（compatibility）等。对相似性和距离数据，在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据，因此，对于这类数据在重建系统发生树时，既可以用距离法，亦可以采用离散特征法。根据建树算法在执行过程中采用的搜索方式，系统发生树的构建方法也可以分为三类。第一类是穷尽搜索方法，即产生所有可能的树，然后根据评价标准选择一棵最优的树。需要注意的是，系统发生树可能的个数随序列的个数急剧增加。假设要为 n 个分类单元建立系统发生树，则可能的有根树个数（NR）和无根系统发生树个数（NU）可用下面的算式计算得到：可以看到，随着 n 的增加，可能的有根系统发生树和无根系统发生树的数目迅速增加。表 6.1 中列出了一些 n 值，以及对应的有根树和无根树的数目。当 n 大于等于 15 时，可能的系统发生树数目变得非常惊人，但是只有其中的一棵树代表了待分析的基因或者物种之间的真实进化关系，我们的目的就是找出这棵反映真实进化关系的树。表 6.1 对不同的 n，可能的有根树和无根树数目数据数目有根树数目无根树数目 2 1 1 3 3 1 4 15 3 5 105 15

050 34.459425 2.207.025 213,458,046,767,875 7,905,853,580,625 8,200,794,532,637,891,559,375221,643,095476,699,771,875 从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数n大于一定值 (如15),几乎不可能采用穷尽搜索的方式来求取最优树第二类方法是分支约束方法,即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。这是人工智能技术中的一种空间搜索策略,这种搜索方式不需要搜索整个树空间,可大大提高搜索效率。第三类是启发式或经验性方法,即根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。这种方法能够处理大量的分类单元,虽然不能保证所构建的树是最优的,但实际结果往往接近于最优解。当待分析的对象个数比较多时, 必须采用分支约束方法或者启发式的方法。在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树, 这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面,系统发生树可能是无根树,意味着没有共同的祖先。一般认为序列是随机进化的,序列中的所有位点的进化也是随机的而且是独立的。在进行具体的系统发生分析时,一般还要作一些假设:序列必须是正确无误的,待分析的序列是同源的,所有的序列都起源于同一个祖先序列,并且它们不是共生同源(或平行进化)序列,在序列比对中,不同序列的同一个位点都是同源个物种在系统发生树上分化后,各自独立进化发展。对系统发生分析的样本也有一定的要求, 要求样本足以反映感兴趣的问题,样本序列之间的差异包含了足以解决感兴趣的问题的系统发生信息。通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系那么分析结果具有较高的可信度。 82基于距高的系统发生树构建方法建立系统发生树的基本任务是:在给定的条件下(包括分类单元、分类单元的特征值或者序列),构造一棵最优的系统发生树。这里重点讨论针对DNA序列或者蛋白质序列构建系统发生树

10 34,459,425 2,207,025 15 213,458,046,767,875 7,905,853,580,625 20 8,200,794,532,637,891,559,375 221,643,095,476,699,771,875 从计算量来看，穷尽搜索方法只能处理很少的分类单元。当分类单元个数 n 大于一定值（如 15），几乎不可能采用穷尽搜索的方式来求取最优树。第二类方法是分支约束方法，即根据一定的约束条件将搜索空间限制在一定范围内，产生可能的树，然后择优。这是人工智能技术中的一种空间搜索策略，这种搜索方式不需要搜索整个树空间，可大大提高搜索效率。第三类是启发式或经验性方法，即根据先验知识或一定的指导性规则压缩搜索空间，提高计算速度。这种方法能够处理大量的分类单元，虽然不能保证所构建的树是最优的，但实际结果往往接近于最优解。当待分析的对象个数比较多时，必须采用分支约束方法或者启发式的方法。在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树，这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面，系统发生树可能是无根树，意味着没有共同的祖先。一般认为序列是随机进化的，序列中的所有位点的进化也是随机的而且是独立的。在进行具体的系统发生分析时，一般还要作一些假设：序列必须是正确无误的，待分析的序列是同源的，所有的序列都起源于同一个祖先序列，并且它们不是共生同源（或平行进化）序列，在序列比对中，不同序列的同一个位点都是同源的。另外，当两个物种在系统发生树上分化后，各自独立进化发展。对系统发生分析的样本也有一定的要求，要求样本足以反映感兴趣的问题，样本序列之间的差异包含了足以解决感兴趣的问题的系统发生信息。通过某种算法构造好一棵系统发生树之后，需要对树的合理性和可靠性进行分析。对于若干条序列，如果利用多种不同的分析方法进行系统发生分析，并且得到相似的进化关系，那么分析结果具有较高的可信度。 8.2 基于距离的系统发生树构建方法建立系统发生树的基本任务是：在给定的条件下（包括分类单元、分类单元的特征值或者序列），构造一棵最优的系统发生树。这里重点讨论针对 DNA 序列或者蛋白质序列构建系统发生树

《生物信息学》课程教学资源（电子讲义）第八章 系统发育分析

《生物信息学》课程教学资源（电子讲义）第八章系统发育分析