第八章系统发育分析 系统发生(或种系发生、系统发育, phylogeny)是指生物形成或进化的历史。系统发 生学( phylogenetics研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征 相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树( phylogenetic tree)表 示,用它描述物种之间的进化关系。通过对生物学数据的建模提取特征,进而比较这些特征, 研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果 更加科学、可靠。分子系统发生分析主要分成三个步骤:分子序列或特征数据的分析、系统 发生树的构造以及结果的检验。 TREERO Other Vertebra te Click on the binomial O Homo sapiens(human) O Bos taurus(cow) B AnopHeles gambiae (mosquito) sfaB∥aris(doq) e Saccharomyces cereris/ae(bakers yeast) 0Magn动p0 rthe grisea Plants s Arabidopsis thaliana(thale baHey) B Oryza sativa (rice)
第八章 系统发育分析 系统发生(或种系发生、系统发育,phylogeny)是指生物形成或进化的历史。系统发 生学(phylogenetics)研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征 相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树(phylogenetic tree)表 示,用它描述物种之间的进化关系。通过对生物学数据的建模提取特征,进而比较这些特征, 研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果 更加科学、可靠。分子系统发生分析主要分成三个步骤:分子序列或特征数据的分析、系统 发生树的构造以及结果的检验
81分子系统发生与系统发生树 811分子系统发生分析 系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开 始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。经典系统发生学研究所涉及的特征主要是生物表型( phenotype).特征,所谓的表型特 征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的 生化的以及行为习性的特征。通过表型比较来推断生物体的基因型( genotype),研究物种之 间的进化关系。但是,利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似 的表型,这是由称为趋同进化( convergent evolution)的过程造成的。例如,如果一个生物学 家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同- 个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三种生物体并不具有密切 的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭。这说明表型有时候会 误导我们,表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是,对于 许多生物体很难检测到可用来进行比较的表型特征。例如,即使用显微镜检査,也难以发现 细菌的明显特性。当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么 样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在 是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态 发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次。科学家认为, 现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物 遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统发 生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加 科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的 特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种 的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕 在分子水平上研究生物之间的关系早在20世纪初就开始了。科学家发现,当把一个生 物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系
8.1 分子系统发生与系统发生树 8.1.1 分子系统发生分析 系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开 始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。经典系统发生学研究所涉及的特征主要是生物表型(phenotype)特征,所谓的表型特 征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的、 生化的以及行为习性的特征。通过表型比较来推断生物体的基因型(genotype),研究物种之 间的进化关系。但是,利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似 的表型,这是由称为趋同进化(convergent evolution)的过程造成的。例如,如果一个生物学 家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一 个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三种生物体并不具有密切 的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭。这说明表型有时候会 误导我们,表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是,对于 许多生物体很难检测到可用来进行比较的表型特征。例如,即使用显微镜检查,也难以发现 细菌的明显特性。当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么 样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在 是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态 发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次。科学家认为, 现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物 遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统发 生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加 科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的 特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种 的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕 迹。 在分子水平上研究生物之间的关系早在 20 世纪初就开始了。科学家发现,当把一个生 物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系
直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20世纪中期,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一 些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20世纪60年代,蛋白质 测序成为可能:20世纪70年代,研究者开始能够获得基因组信息,特别是DNA序列。蛋 白质序列和DNA序列为分子系统发生分析提供了可靠的数据。 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非 常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我 们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系 统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么 这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大:相反,两个 序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速 率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世 界不同地区许多人的线粒体DNA,分析结果表明,所有现代人都是一个非洲女性的后代。 线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完全传到子代,不与父代 DNA重组。由于DNA分子非常稳定,所以我们既可以通过DNA分析活着的生物,也可 以分析死去的生物,甚至分析已经绝种的生物。当然,用细胞核基因来研究系统发生关系时, 遇到的一个严重的问题是,基因常常会被复制,导致在个体基因组中,一个基因可能有若干 个拷贝。在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的 基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题 所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以 树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生 物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。 系统发生分析一般是建立在分子钟( molecular clock)基础上的。生物随着时间的推进而 演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传 改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中, 有着相似功能约束的位点的分子进化速率则几乎完全一致。20世纪60年代最早由 Emile Zuckerkandl和 Linus pauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就 算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较
直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20 世纪中期,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一 些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20 世纪 60 年代,蛋白质 测序成为可能;20 世纪 70 年代,研究者开始能够获得基因组信息,特别是 DNA 序列。蛋 白质序列和 DNA 序列为分子系统发生分析提供了可靠的数据。 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非 常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我 们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系 统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么, 这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个 序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速 率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世 界不同地区许多人的线粒体 DNA,分析结果表明,所有现代人都是一个非洲女性的后代。 线粒体 DNA 非常适合于系统发生分析,因为线粒体 DNA 从母体完全传到子代,不与父代 DNA 重组。由于 DNA 分子非常稳定,所以我们既可以通过 DNA 分析活着的生物,也可 以分析死去的生物,甚至分析已经绝种的生物。当然,用细胞核基因来研究系统发生关系时, 遇到的一个严重的问题是,基因常常会被复制,导致在个体基因组中,一个基因可能有若干 个拷贝。在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的 基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题。 所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以 树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生 物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。 系统发生分析一般是建立在分子钟(molecular clock)基础上的。生物随着时间的推进而 演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传 改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中, 有着相似功能约束的位点的分子进化速率则几乎完全一致。20 世纪 60 年代最早由 Emile Zuckerkandl 和 Linus Pauling 所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就 算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较
几种动物的血红蛋白、细胞色素C的序列后注意到:这些蛋白质的氨基酸取代速率在不同 的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速 率是不同的,但是两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间 稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地 质年代那样,准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧 时间的加大而增加,而DNA序列也存在这种规律。 Kimura进一步提出了具体的分子进化 观点:对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子 进化的速率,则该速率是大致恒定的:;功能上次要的分子(或者分子部分)的进化速率比功 能重要的分子(或者分子部分)进化速率快:对现有分子结构或者功能破坏小的氨基酸替换 比破坏力大的氨基酸替换发生得更加频繁 尽管以上的分析给我们带来了很多希望,但是, Zuckerkandl和 Pauling的分子时钟假 说还是有争议的。经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不 致。关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑 812系统发生树 一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生 树由一系列节点( nodes)和分支( branches)组成,其中每个节点代表一个分类单元(物 种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点( terminal node)和内部节点( internal node)。在一般情况下,外部节点代表实际观察到的分类单元, 而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖 先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致 在下面的讨论中,我们基本上以序列(DNA序列或蛋白质序列)作为分类单元。树节点间 的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支 系统发生树有许多形式:可能是有根树( rooted tree),也可能是无根树( unrooted tree) 可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树, scaled tree,树中标明 分支的长度),也可能是无权值树(或非标度树, unscaled tree)。在一棵有根树中,有一个唯 的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进 化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生
几种动物的血红蛋白、细胞色素 C 的序列后注意到:这些蛋白质的氨基酸取代速率在不同 的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速 率是不同的,但是,两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间 稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地 质年代那样,准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧 时间的加大而增加,而 DNA 序列也存在这种规律。Kimura 进一步提出了具体的分子进化 观点:对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子 进化的速率,则该速率是大致恒定的;功能上次要的分子(或者分子部分)的进化速率比功 能重要的分子(或者分子部分)进化速率快;对现有分子结构或者功能破坏小的氨基酸替换 比破坏力大的氨基酸替换发生得更加频繁。 尽管以上的分析给我们带来了很多希望,但是,Zuckerkandl 和 Pauling 的分子时钟假 说还是有争议的。经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不 一致。关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑。 8.1.2 系统发生树 一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生 树由一系列节点(nodes)和分支(branches )组成,其中每个节点代表一个分类单元(物 种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点(terminal node)和内部节点(internal node)。在一般情况下,外部节点代表实际观察到的分类单元, 而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖 先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致。 在下面的讨论中,我们基本上以序列(DNA 序列或蛋白质序列)作为分类单元。树节点间 的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支。 系统发生树有许多形式:可能是有根树(rooted tree),也可能是无根树(unrooted tree); 可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树,scaled tree,树中标明 分支的长度),也可能是无权值树(或非标度树,unscaled tree)。在一棵有根树中,有一个唯 一的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进 化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生
树推断出共同祖先和进化方向,而有的却不能。无根树没有层次结构,无根树只说明了节点 之间的关系,没有关于进化发生方向的信息。但是,通过使用外部参考物种(那些明确地最 早从被研究物种中分化出来的物种),可以在无根树中指派根节点。例如,在研究人类和大 猩猩时,可用狒狒作为外部参考物种,树的根节点可以放在连接狒狒与人和大猩猩共同祖先 的分支上。 叉树是一种特殊的树,每个节点最多有两个子节点。在有权值的树中,分支的长度(或 权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量 形式。一般假设存在一个分子钟,进化的速率恒定。 系统发生树具有以下性质 (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都 有联系的分类单元 (2)如果找不到可以作为树根的单元,则系统发生树是无根树 (3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离 图6.1(a)所示的是一棵有根树,而图6.1(b)显示的是一棵无根树,图中的A、B、C、D 为所研究的分类单元 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的,分析的目 标就是要寻找这棵正确的树 树根 图6.1系统发生树。(a)有根树;(b)无根树
树推断出共同祖先和进化方向,而有的却不能。无根树没有层次结构,无根树只说明了节点 之间的关系,没有关于进化发生方向的信息。但是,通过使用外部参考物种(那些明确地最 早从被研究物种中分化出来的物种),可以在无根树中指派根节点。例如,在研究人类和大 猩猩时,可用狒狒作为外部参考物种,树的根节点可以放在连接狒狒与人和大猩猩共同祖先 的分支上。 二叉树是一种特殊的树,每个节点最多有两个子节点。在有权值的树中,分支的长度(或 权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量 形式。一般假设存在一个分子钟,进化的速率恒定。 系统发生树具有以下性质: (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都 有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树; (3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离。 图 6.1(a)所示的是一棵有根树,而图 6.1(b)显示的是一棵无根树,图中的 A、B、C、D 为所研究的分类单元。 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的,分析的目 标就是要寻找这棵正确的树
基于单个同源基因差异构建的系统发生树称为基因树( gene tree,这比称作物种树 ( species tree)更为合理。因为这种树代表的仅仅是单个基因的进化历史,而不是它所在物 种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种 树之间的差异是很重要的,例如,假设只用HLA的等位基因来构建物种树,许多人将与大 猩猩分在一起,而不是和其他人分在一起。 813距高和特征 用于构建系统发生树的分子数据分成两类:(1)距离( distances)数据,常用距离矩 阵描述,表示两个数据集之间所有两两差异:(2)特征( characters数据,表示分子所具有 的特征 分子系统发生分析的目的是探讨物种之间的进化关系,其分析的对象往往是一组同源的 序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手 段,是进行系统发生分析的基础,一般采用基于两两比对渐进的多重序列比对方法,如 Clustalw程序。通过序列的比对,可以分析序列之间的差异,计算序列之间的距离。 无论是DNA序列,还是蛋白质序列,都是由特定字母表中的字符组成的。计算序列之 间距离的一个前提条件是要有一个字符替换模型,替换模型影响序列多重比对的结果,影响 系统发生树的构造结果。在具体的分析过程中,需要选择一个合理的字符替换模型,参见第 3章的各种打分模型或代价、距离模型 距离(或者相似度)是反映序列之间关系的一种度量,是建立系统发生树时所常用的 类数据。在计算距离之前,首先进行序列比对,然后累加每个比对位置的得分。可以应用第 3章介绍的关于序列比较方法,直接计算序列之间的距离。如果在进行序列比较时使用的是 打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离。令S(ij是序列 和序列j各个比对位置得分的加权和,一种归一化的距离计算公式为 d(,)=1-、(a,0-s,(3 (6-1) Sa(2,-S,(
基于单个同源基因差异构建的系统发生树称为基因树(gene tree),这比称作物种树 (species tree)更为合理。因为这种树代表的仅仅是单个基因的进化历史,而不是它所在物 种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种 树之间的差异是很重要的,例如,假设只用 HLA 的等位基因来构建物种树,许多人将与大 猩猩分在一起,而不是和其他人分在一起。 8.1.3 距离和特征 用于构建系统发生树的分子数据分成两类:(1)距离(distances)数据,常用距离矩 阵描述,表示两个数据集之间所有两两差异;(2)特征(characters)数据,表示分子所具有 的特征。 分子系统发生分析的目的是探讨物种之间的进化关系,其分析的对象往往是一组同源的 序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手 段,是进行系统发生分析的基础,一般采用基于两两比对渐进的多重序列比对方法,如 ClustalW 程序。通过序列的比对,可以分析序列之间的差异,计算序列之间的距离。 无论是 DNA 序列,还是蛋白质序列,都是由特定字母表中的字符组成的。计算序列之 间距离的一个前提条件是要有一个字符替换模型,替换模型影响序列多重比对的结果,影响 系统发生树的构造结果。在具体的分析过程中,需要选择一个合理的字符替换模型,参见第 3 章的各种打分模型或代价、距离模型。 距离(或者相似度)是反映序列之间关系的一种度量,是建立系统发生树时所常用的一 类数据。在计算距离之前,首先进行序列比对,然后累加每个比对位置的得分。可以应用第 3 章介绍的关于序列比较方法,直接计算序列之间的距离。如果在进行序列比较时使用的是 打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离。令 S(i,j)是序列 i 和序列 j 各个比对位置得分的加权和,一种归一化的距离计算公式为:
其中,S(ij)是序列i和j随机化之后的比对得分的加权和,Sm()是两条序列所有可能的比 对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于0和1之间, 当两个序列完全一致时,距离为0:当两个序列差异很大时,距离接近于1。如果在上式中 令Sj)=0,则计算公式变为 d(,j)=1 S(,) (6-2) (2, 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 d6,=-n, (6-3) 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM矩阵、 BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷 酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵 距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散 特征数据可分为二态特征与多态特征。二态的离散特征只有2种可能的状况,即具有与不具 有某种特征,通常用“0”或“1”表示。例如,DNA序列上的某个位置如果是剪切位点,其特 征值为1,否则为0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列 中某一位置来说,其可能的碱基有A、T、G、C共4种。可以将特征数据转换为距离数据 如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 814分子系统发生分析过程 分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析:(2)系统发 生树的构造:(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据 系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法 大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离 依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间
其中,Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和,Smax(i,j)是两条序列所有可能的比 对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于 0 和 1 之间, 当两个序列完全一致时,距离为 0;当两个序列差异很大时,距离接近于 1。如果在上式中 令 Sr(i,j)=0,则计算公式变为: 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式: 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM 矩阵、BLOSUM 矩阵等;如果待处理的序列是 DNA 或者 RNA,则用等价矩阵、核苷 酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵。 距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散 特征数据可分为二态特征与多态特征。二态的离散特征只有 2 种可能的状况,即具有与不具 有某种特征,通常用“0”或“1”表示。例如,DNA 序列上的某个位置如果是剪切位点,其特 征值为 1,否则为 0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列 中某一位置来说,其可能的碱基有A、T、G、C共 4 种。可以将特征数据转换为距离数据。 如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 8.1.4 分子系统发生分析过程 分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;(2)系统发 生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据。 系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法 大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离, 依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间
的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类 方法有非加权分组平均法( unweighted pair group method with arithmetic means)、邻近归并 法( neighbor joining method)、 Fitch- Margoliash法、最小进化方法( minimum evolution)等 另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列 中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点) 进化关系等。属于这一类的方法有最大简约法( maximum parsimony method)、最大似然法 ( maximum likelihood method)、进化简约法( evolutionary parsimony method)、相容性方 法( compatibility)等。对相似性和距离数据,在重建系统发生树时只能利用距离法。离散 特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既 可以用距离法,亦可以采用离散特征法。 根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为三类。 第一类是穷尽搜索方法,即产生所有可能的树,然后根据评价标准选择一棵最优的树。需要 注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为n个分类单元建立系统 发生树,则可能的有根树个数(Ng)和无根系统发生树个数(Nu)可用下面的算式计算得 (64) 22(x-2 可以看到,随着n的增加,可能的有根系统发生树和无根系统发生树的数目迅速增加。表 61中列出了一些n值,以及对应的有根树和无根树的数目。当n大于等于15时,可能的系 统发生树数目变得非常惊人,但是只有其中的一棵树代表了待分析的基因或者物种之间的真 实进化关系,我们的目的就是找出这棵反映真实进化关系的树。 表6.1对不同的n,可能的有根树和无根树数目 数据数目 有根树数目 无根树数目 15 15
的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类 方法有非加权分组平均法(unweighted pair group method with arithmetic means)、邻近归并 法(neighbor joining method)、Fitch-Margoliash 法、最小进化方法(minimum evolution)等。 另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如 DNA 序列 中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的 进化关系等。属于这一类的方法有最大简约法(maximum parsimony method)、最大似然法 (maximum likelihood method)、进化简约法(evolutionary parsimony method)、相容性方 法(compatibility)等。对相似性和距离数据,在重建系统发生树时只能利用距离法。离散 特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既 可以用距离法,亦可以采用离散特征法。 根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为三类。 第一类是穷尽搜索方法,即产生所有可能的树,然后根据评价标准选择一棵最优的树。需要 注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为 n 个分类单元建立系统 发生树,则可能的有根树个数(NR)和无根系统发生树个数(NU)可用下面的算式计算得 到: 可以看到,随着 n 的增加,可能的有根系统发生树和无根系统发生树的数目迅速增加。表 6.1 中列出了一些 n 值,以及对应的有根树和无根树的数目。当 n 大于等于 15 时,可能的系 统发生树数目变得非常惊人,但是只有其中的一棵树代表了待分析的基因或者物种之间的真 实进化关系,我们的目的就是找出这棵反映真实进化关系的树。 表 6.1 对不同的 n,可能的有根树和无根树数目 数据数目 有根树数目 无根树数目 2 1 1 3 3 1 4 15 3 5 105 15
050 34.459425 2.207.025 213,458,046,767,875 7,905,853,580,625 8,200,794,532,637,891,559,375221,643,095476,699,771,875 从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数n大于一定值 (如15),几乎不可能采用穷尽搜索的方式来求取最优树 第二类方法是分支约束方法,即根据一定的约束条件将搜索空间限制在一定范围内,产 生可能的树,然后择优。这是人工智能技术中的一种空间搜索策略,这种搜索方式不需要搜 索整个树空间,可大大提高搜索效率。第三类是启发式或经验性方法,即根据先验知识或一 定的指导性规则压缩搜索空间,提高计算速度。这种方法能够处理大量的分类单元,虽然不 能保证所构建的树是最优的,但实际结果往往接近于最优解。当待分析的对象个数比较多时, 必须采用分支约束方法或者启发式的方法。 在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树, 这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面,系统发生树可能是无根 树,意味着没有共同的祖先。一般认为序列是随机进化的,序列中的所有位点的进化也是随 机的而且是独立的。在进行具体的系统发生分析时,一般还要作一些假设:序列必须是正确 无误的,待分析的序列是同源的,所有的序列都起源于同一个祖先序列,并且它们不是共生 同源(或平行进化)序列,在序列比对中,不同序列的同一个位点都是同源 个物种在系统发生树上分化后,各自独立进化发展。对系统发生分析的样本也有一定的要求, 要求样本足以反映感兴趣的问题,样本序列之间的差异包含了足以解决感兴趣的问题的系统 发生信息。 通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于 若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系 那么分析结果具有较高的可信度。 82基于距高的系统发生树构建方法 建立系统发生树的基本任务是:在给定的条件下(包括分类单元、分类单元的特征值或 者序列),构造一棵最优的系统发生树。这里重点讨论针对DNA序列或者蛋白质序列构建 系统发生树
10 34,459,425 2,207,025 15 213,458,046,767,875 7,905,853,580,625 20 8,200,794,532,637,891,559,375 221,643,095,476,699,771,875 从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数 n 大于一定值 (如 15),几乎不可能采用穷尽搜索的方式来求取最优树。 第二类方法是分支约束方法,即根据一定的约束条件将搜索空间限制在一定范围内,产 生可能的树,然后择优。这是人工智能技术中的一种空间搜索策略,这种搜索方式不需要搜 索整个树空间,可大大提高搜索效率。第三类是启发式或经验性方法,即根据先验知识或一 定的指导性规则压缩搜索空间,提高计算速度。这种方法能够处理大量的分类单元,虽然不 能保证所构建的树是最优的,但实际结果往往接近于最优解。当待分析的对象个数比较多时, 必须采用分支约束方法或者启发式的方法。 在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树, 这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面,系统发生树可能是无根 树,意味着没有共同的祖先。一般认为序列是随机进化的,序列中的所有位点的进化也是随 机的而且是独立的。在进行具体的系统发生分析时,一般还要作一些假设:序列必须是正确 无误的,待分析的序列是同源的,所有的序列都起源于同一个祖先序列,并且它们不是共生 同源(或平行进化)序列,在序列比对中,不同序列的同一个位点都是同源的。另外,当两 个物种在系统发生树上分化后,各自独立进化发展。对系统发生分析的样本也有一定的要求, 要求样本足以反映感兴趣的问题,样本序列之间的差异包含了足以解决感兴趣的问题的系统 发生信息。 通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于 若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系, 那么分析结果具有较高的可信度。 8.2 基于距离的系统发生树构建方法 建立系统发生树的基本任务是:在给定的条件下(包括分类单元、分类单元的特征值或 者序列),构造一棵最优的系统发生树。这里重点讨论针对 DNA 序列或者蛋白质序列构建 系统发生树
基于距离的系统发生树构建方法的基本思路是:给定一种序列之间距离的度量,在该距 离度量下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。这种方法采 用两两距离,建立一个距离矩阵,如表72所示,根据距离矩阵构造系统发生树。 表6210条核酸序列的距离矩阵 2 6 8 2|00516 055000031 004830.02210.0253 005820.06510.06850.0549 600094004160.0450003840.0549 7|001250.058400619005510.06100157 0.02840.06870.07220.065400754 0.03170.0285 009250.12210.12590.11850.13700.0820007860.0927 100.19210.21830.2228020540.23090.17980.17950.18330.1860 这里的距离代表两条序列之间各位点核苷酸替换数的估计值 821最小二乘法 在很多情况下,这种距离矩阵传达了大部分进化信息。运用前面介绍的序列比较程序, 可以计算出序列之间的距离。但是,在进行序列比较时,应根据比较的对象是DNA序列还 是蛋白质序列,正确选用不同的打分矩阵。 为了便于分析,首先定义一种连续加和距离函数,在该函数下,两个分类单元之间的距 离与系统发生树中连接这两个分类单元的分支总长度成正比。这样,如果分类单元a和分类 单元b由经过中间节点v的两条边相连,两条边的长度分别为da和d,则它们之间的距离 为dn+dh。这样,可以在系统发生树中确定a和b的相对位置。进一步,假设三个分类单 元之间的距离分别为d、d、de,如果分类单元a和分类单元b由经过中间节点v的两条边 相连,再经过节点u与分类单元c相连,则可以通过求解线性方程计算出系统发生树的各种 内部距离 例,如果有三个分类单元,其两两距离如下 dh=05 dx=09
基于距离的系统发生树构建方法的基本思路是:给定一种序列之间距离的度量,在该距 离度量下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。这种方法采 用两两距离,建立一个距离矩阵,如表 7.2 所示,根据距离矩阵构造系统发生树。 表 6.2 10 条核酸序列的距离矩阵。 1 2 3 4 5 6 7 8 9 2 0.0516 3 0.0550 0.0031 4 0.0483 0.0221 0.0253 5 0.0582 0.0651 0.0685 0.0549 6 0.0094 0.0416 0.0450 0.0384 0.0549 7 0.0125 0.0584 0.0619 0.0551 0.0651 0.0157 8 0.0284 0.0687 0.0722 0.0654 0.0754 0.0317 0.0285 9 0.0925 0.1221 0.1259 0.1185 0.1370 0.0820 0.0786 0.0927 10 0.1921 0.2183 0.2228 0.2054 0.2309 0.1798 0.1795 0.1833 0.1860 这里的距离代表两条序列之间各位点核苷酸替换数的估计值。 8.2.1 最小二乘法 在很多情况下,这种距离矩阵传达了大部分进化信息。运用前面介绍的序列比较程序, 可以计算出序列之间的距离。但是,在进行序列比较时,应根据比较的对象是 DNA 序列还 是蛋白质序列,正确选用不同的打分矩阵。 为了便于分析,首先定义一种连续加和距离函数,在该函数下,两个分类单元之间的距 离与系统发生树中连接这两个分类单元的分支总长度成正比。这样,如果分类单元 a 和分类 单元 b 由经过中间节点 v 的两条边相连,两条边的长度分别为 dav 和 dbv,则它们之间的距离 为 dav+ dbv。这样,可以在系统发生树中确定 a 和 b 的相对位置。进一步,假设三个分类单 元之间的距离分别为 dab、dac、dbc,如果分类单元 a 和分类单元 b 由经过中间节点 v 的两条边 相连,再经过节点 u 与分类单元 c 相连,则可以通过求解线性方程计算出系统发生树的各种 内部距离。 例,如果有三个分类单元,其两两距离如下: dab = 0.5; dac = 0.9;