第五章多序列比对 51引言 双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要 建立多个序列之间的关系,这样才能揭示整个基因家族的特征。由于可以提高序列比对的信 噪比,多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。本章中 我们将介绍一系列多序列比对的方法,从完全手动的方式到广泛应用的计算机程序,即所谓 自动比对的方法 52多序列比对的意义 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相 似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列 比对的方法建立在某个数学或生物学模型之上。因此,正如我们不能对双序列比对的结果得 出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而 只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征 显然,多序列比对需要使用许多专门的分析工具。除了一些已经广泛使用并仍在不但 改进的多序列计算机程序外,还需要有一个开发方便实用的多序列比对手工编辑工具。 可以从多个不同角度出发构建多序列比对模型。这里,主要指建立比对模型的生物学 基础,而不仅是具体的比对方法,如自动比对或手动比对等。目前,构建多序列比对模型的 方法大体可以分为两大类。第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可 突变性等。另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序 列的高级结构特征确定比对结果。显然,这两种方法所得结果可能有很大差别。一般说来, 很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的 生物学信息 基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免 的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。我们知道,蛋白 质序列是经过DNA序列转录翻译得到的。从信息论的角度看,它应该与DNA分子所携带 的信息更为“接近”。而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修 饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质 结构。因此,这也是对完全基于序列数据比对方法批评的主要原因。显然,如果能够利用结 构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋 白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依 靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。 53多序列比对的定义 为了便于描述,我们对多序列比对过程给出下面的定义。把多序列比对看作一张 二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规 则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或 相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐。我们称比对前 序列中残基的位置为绝对位置。如序列I的第3位的残基是甘氨酸G,则绝对位置I 3就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位 置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不 同,因为它们来自不同的序列。需要说明的是,绝对位置是序列本身固有的属性,或 者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属
第五章 多序列比对 5.1 引言 双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要 建立多个序列之间的关系,这样才能揭示整个基因家族的特征。由于可以提高序列比对的信 噪比,多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。本章中, 我们将介绍一系列多序列比对的方法,从完全手动的方式到广泛应用的计算机程序,即所谓 自动比对的方法。 5.2 多序列比对的意义 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相 似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列 比对的方法建立在某个数学或生物学模型之上。因此,正如我们不能对双序列比对的结果得 出“正确或错误”的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而 只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。 显然,多序列比对需要使用许多专门的分析工具。除了一些已经广泛使用并仍在不但 改进的多序列计算机程序外,还需要有一个开发方便实用的多序列比对手工编辑工具。 可以从多个不同角度出发构建多序列比对模型。这里,主要指建立比对模型的生物学 基础,而不仅是具体的比对方法,如自动比对或手动比对等。目前,构建多序列比对模型的 方法大体可以分为两大类。第一类是基于氨基酸残基的相似性,如物化性质、残基之间的可 突变性等。另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序 列的高级结构特征确定比对结果。显然,这两种方法所得结果可能有很大差别。一般说来, 很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的 生物学信息。 基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免 的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。我们知道,蛋白 质序列是经过 DNA 序列转录翻译得到的。从信息论的角度看,它应该与 DNA 分子所携带 的信息更为“接近”。而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修 饰所增加的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质 结构。因此,这也是对完全基于序列数据比对方法批评的主要原因。显然,如果能够利用结 构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋 白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依 靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。 5.3 多序列比对的定义 为了便于描述,我们对多序列比对过程给出下面的定义。把多序列比对看作一张 二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规 则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或 相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐。我们称比对前 序列中残基的位置为绝对位置。如序列Ⅰ的第 3 位的残基是甘氨酸 G,则绝对位置Ⅰ 3 就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位 置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不 同,因为它们来自不同的序列。需要说明的是,绝对位置是序列本身固有的属性,或 者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属 性
54调和序列 多序列比对的最终结果可以用一个调和序列( consensus)表示,有时也称假想序列 ( pseudo- sequence),通常加在比对后所有序列的下面。这一调和序列的残基是由对应的同 列残基归纳而得到。 调和序列只是多序列比结果的一种表示方式。还可以用权重矩阵来表示比对结果,如 下面将要介绍的序列谱方法。而 BLOCKS数据库则是找出比对结果中没有空位出现的保守 模块),并把它们转化成位置特异性分数矩阵。而 PRINTS数据库则用人工方法从比对结果 中找出所有没有空位的序列模体,其长度一般较短,并依此建立一个非加权的分数矩阵。这 些方法在第3章和第8章中分别予以详细讨论。 55算法复杂性 多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需 要的计算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积, 用O(mm2)表示。其中m、m2是指两条序列的长度。三序列比对则可以理解为将双序列 比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成 了O(mm2m3),其中m3表示第三条序列的长度。 随着序列数量的增加,算法复杂性也不断增加。我们用O(mm2m3.mn)表示对n个 序列进行比对时的算法复杂性,其中mn是最后一条序列的长度。若序列长度相差不大,则 可简化成O(m2),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增 加,序列比对的算法复杂性按指数规律增长。 降低算法复杂性,是研究多序列比对的一个重要方面。为此,产生了不少很有实用意 义的多序列比对算法。这些方法的特点是利用启发式( heuristics)算法降低算法复杂性,以 获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守 序列或序列模板,以及进行聚类( clustering)分析等。有的算法将动态规划和启发性算法结 合起来。例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根 据某种给定的亲源树进行分组比对,等等。必须指出,上述方法求得的结果通常不是最优解, 至少需要经过n-1次双序列比对,其中n为参与比对的序列个数 56手工比对方法 工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为 有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以 忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资 料,对多序列比对结果进行手工修饰,应该说是非常必要的。 多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程 序和编辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特 性的残基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不 很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结 果中迅速找到某些重要的结构模式和功能位点。例如,如果用某种颜色表示一组高度保守的 残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择 可以根据主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组 件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表73) 表53基酸分组方法和代表性颜色 残基种类 残基特性 颜色 Asp(D), Glu(e) 酸性 红色 His(h), Arg(R), Lys(k) 碱性 兰色 Ser(S), Thr(T), Asn(N), Gln(Q) 极性 绿色
5.4 调和序列 多序列比对的最终结果可以用一个调和序列(consensus)表示,有时也称假想序列 (pseudo-sequence),通常加在比对后所有序列的下面。这一调和序列的残基是由对应的同 一列残基归纳而得到。 调和序列只是多序列比结果的一种表示方式。还可以用权重矩阵来表示比对结果,如 下面将要介绍的序列谱方法。而 BLOCKS 数据库则是找出比对结果中没有空位出现的保守 模块),并把它们转化成位置特异性分数矩阵。而 PRINTS 数据库则用人工方法从比对结果 中找出所有没有空位的序列模体,其长度一般较短,并依此建立一个非加权的分数矩阵。这 些方法在第 3 章和第 8 章中分别予以详细讨论。 5.5 算法复杂性 多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需 要的计算时间和内存空间与这两个序列的长度有关,或者说正比于这两个序列长度的乘积, 用 O(m1m2)表示。其中 m1、m2 是指两条序列的长度。三序列比对则可以理解为将双序列 比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成 了 O(m1m2m3),其中 m3 表示第三条序列的长度。 随着序列数量的增加,算法复杂性也不断增加。我们用 O(m1m2m3…mn)表示对 n 个 序列进行比对时的算法复杂性,其中 mn 是最后一条序列的长度。若序列长度相差不大,则 可简化成 O(mn ),其中 n 表示序列的数目,m 表示序列的长度。显然,随着序列数量的增 加,序列比对的算法复杂性按指数规律增长。 降低算法复杂性,是研究多序列比对的一个重要方面。为此,产生了不少很有实用意 义的多序列比对算法。这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以 获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守 序列或序列模板,以及进行聚类(clustering)分析等。有的算法将动态规划和启发性算法结 合起来。例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根 据某种给定的亲源树进行分组比对,等等。必须指出,上述方法求得的结果通常不是最优解, 至少需要经过 n-1 次双序列比对,其中 n 为参与比对的序列个数。 5.6 手工比对方法 手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为 有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以 忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资 料,对多序列比对结果进行手工修饰,应该说是非常必要的。 多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程 序和编辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特 性的残基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不 很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结 果中迅速找到某些重要的结构模式和功能位点。例如,如果用某种颜色表示一组高度保守的 残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择 可以根据主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组 件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表 7.3)。 表 5.3 氨基酸分组方法和代表性颜色 残基种类 残基特性 颜色 Asp (D), Glu (E) 酸性 红色 His (H), Arg (R), Lys (K) 碱性 兰色 Ser (S), Thr (T), Asn (N), Gln (Q) 极性 绿色
Ala(A),Val(V,Leu(L,Ile(①),Met(M)疏水性,带支链白色 Phe (f), Tyr(Y), Trp(W) 疏水性,带苯环紫色 Pro(P), Gly(G) 侧链结构特殊棕色 Cys(C) 能形成二硫键 黄色 *表中采用的分组方法和用来区分不同组别的颜色与模型构件和三维图形软件 中所用方法一致 多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化 中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得 到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量 如果序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错 误之处。 现有的软件包用的基本上是可用鼠标点击的窗口界面,其中序列编辑器位于窗口中央。 这样的软件包将在第十章中详细介绍。 在第79节中,我们将会看到,那些长度相仿且相似性程度较高的序列,采用自动比对 方法将会得到相当满意的结果;而当序列长度相差较大而相似性程度较低时,采用自动方法 得出的结果则不很理想。此时,手工序列编辑器就接显得十分有用。通过手工调整,可使结 果变得接近实际。此外,采用多种不同的方法进行分析,再将结果综合,是一种行之有效的 方法。为更好地理解多序列比对的原理和规则,应该尽可能学会手工比对的方法,并把比对 结果与计算机自动比对得到的结果加以比较 57同步法 同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其 基本思想是将一个二维的动态规划矩阵(见第6章)扩展到三维或多维。矩阵的维数反映了 参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序 列的比对 58步进法 这类方法中最常用的就是 Clustal,它是由Feng和 Doolittle于1987年提出的(Feng和 Doolittle,1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现 实,因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。 Clustal的基 本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两 两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之 间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果 比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序 的一部分, Clusal可以输出用于构建进化树的数据。 Clustal程序有许多版本, Clustalw( Thompson等,194),根据对亲缘关系较近的序列 间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对 结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变 异性 Clustal是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析 Clustal所支持的数据格式包括EMBL/ SWISSPROT、NBRF/PR、 Pearson/ FastA、 GCG/MSF, 以及 Clusia本身定义的格式。它的输出格式可以是 Clustal格式,也可以是可用于GDE、 Phylip、GCG等软件的格式 图7.1列出肾上腺素能糖蛋白偶连受体( G-protein d receptors,简称 GPCRs)序 列比对部分结果。比对采用缺省参数,输出格式采用GC 格式。这些序列具有高度的 相似性而且长度相仿,其结果十分理想。图中可以明显地看出有两个空位插入区域,一个是 由于两个A2AA受体相对其它序列有GPQ和GQQ三个残基的插入造成(图中上部分右侧);
Ala (A), Val (V), Leu (L), Ile (I), Met (M) 疏水性,带支链 白色 Phe (F), Tyr (Y), Trp (W) 疏水性,带苯环 紫色 Pro (P), Gly (G) 侧链结构特殊 棕色 Cys (C) 能形成二硫键 黄色 * 表中采用的分组方法和用来区分不同组别的颜色与模型构件和三维图形软件 中所用方法一致 多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化 中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得 到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。 如果序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错 误之处。 现有的软件包用的基本上是可用鼠标点击的窗口界面,其中序列编辑器位于窗口中央。 这样的软件包将在第十章中详细介绍。 在第 7.9 节中,我们将会看到,那些长度相仿且相似性程度较高的序列,采用自动比对 方法将会得到相当满意的结果;而当序列长度相差较大而相似性程度较低时,采用自动方法 得出的结果则不很理想。此时,手工序列编辑器就接显得十分有用。通过手工调整,可使结 果变得接近实际。此外,采用多种不同的方法进行分析,再将结果综合,是一种行之有效的 方法。为更好地理解多序列比对的原理和规则,应该尽可能学会手工比对的方法,并把比对 结果与计算机自动比对得到的结果加以比较。 5.7 同步法 同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其 基本思想是将一个二维的动态规划矩阵(见第 6 章)扩展到三维或多维。矩阵的维数反映了 参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序 列的比对。 5.8 步进法 这类方法中最常用的就是 Clustal,它是由 Feng 和 Doolittle 于 1987 年提出的(Feng 和 Doolittle,1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现 实,因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。Clustal 的基 本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两 两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之 间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。 比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序 的一部分,Clusal 可以输出用于构建进化树的数据。 Clustal 程序有许多版本,ClustalW(Thompson 等,1994),根据对亲缘关系较近的序列 间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对 结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变 异性。 Clustal 是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。 Clustal 所支持的数据格式包括 EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF, 以及 Clustal 本身定义的格式。它的输出格式可以是 Clustal 格式,也可以是可用于 GDE、 Phylip、GCG 等软件的格式。 图 7.1 列出肾上腺素能糖蛋白偶连受体(G-protein copupled receptors,简称 GPCRs)序 列比对部分结果。比对采用缺省参数,输出格式采用 GCG/MSF 格式。这些序列具有高度的 相似性而且长度相仿,其结果十分理想。图中可以明显地看出有两个空位插入区域,一个是 由于两个 A2AA 受体相对其它序列有 GPQ 和 GQQ 三个残基的插入造成(图中上部分右侧);
另一个是由两个A2AB受体中的单个残基插入造成(图中下部右侧)。 59多序列比对的数据库 多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输 出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据 库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。 目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将 次数据库按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库 关于这方面的内容超出了本书范围,难以一一详述。然而,读者应该对这些多序列比对 数据库构建的方法和它们的准确程度有所了解。 以上例子突出表明,Piam等采用叠代算法而未经人工检查的自动比对程序产生的结果 可能导致难以预料的错误结果。因为每次叠代所产生的假阳性结果,会随着叠代次数的增加 而累加起来,导致出现越来越多的错误比对,最终导致难以区分由随机序产生的匹配和亲缘 关系较远的序列之间匹配的区别。 综上所述,搞清各种不同比对方法和所得结果之间的区别,显然十分重要。比较图71 和72的结果可以得知,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有 效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。而通过图72和73的比较 我们可以看出,若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是 对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在选择现有的 序列模式或序列模体公开数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须 采取谨慎的态度。 5.10基于多序列比对的数据库搜索 第6章的最后部分,我们探讨了利用双序列比对进行数据库搜索的各种方法。同样, 多序列比对也可以用于数据库搜索。正如前面介绍的,由多序列比对的结果可以推断用于描 述基因家族的特征的序列模式,如正则表达式、序列谱,序列模块、序列指纹图谱以及隐马 氏模型等。有关蛋白质序列模式二次数据库的搜索和分析方法,将在第8章中详细介绍 与基于双序列比对的数据库方法相比,基于多序列比对的数据库搜索整合入了更多的 信息,使搜索结果更加灵敏,信噪比更高。它的缺点是所花费的时间更长,并且最终结果经 常更加不容易分析。 般说来,对检测序列通常先进行基于双序列比对的数据库搜索。若搜索结果得到己 知基因家族的某些信息,或没有给出相似性程度较高的目标序列,则可尝试基于多序列比对 的数据库搜索方案,其目的在于找出那些相似性程度较低而又有生物学意义的目标序列 5101位点特异性 BLAST叠代搜索 点特异性 BLAST( Position-Specific Iterated BLAST,简称 PSI-BLAST)叠代搜索 ( Altschul等,1997),是一种将双序列比对和多序列比对结合在一起的数据库搜索方法 尽管以下事实已经基本得到认同:基于序列模式的数据库搜索灵敏度较高、特异性较好,因 而可以发现一些距离较远但却具有生物学意义的相似序列:它的不足之处也不能予以忽视 除了需要大量的计算资源这一缺点外,对于搜索结果的分析解释常常相当困难。这些制约因 素限制了它的实际使用范围。PSI- BLAST的基本思路在于根据最初的搜索结果,依照预先 定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次叠代不 断改进这一序列谱以提高搜索的灵敏度。 和其它叠代算法一样,PSL-BLAS方法既有不少长处,也有它的弊病。例如,如果在比 对前不把胶原蛋白、同源多聚体等低复杂度的重复序列屏蔽掉,自动叠代搜索过程会因为这 些重复序列的干扰而失败(Holm,1998)。假如第一轮的搜索结果出现一个错误序列,那么 最终搜索结果中将会出现许多不期望的无关序列(见79节)。因此,为了尽量去除大量的 错误匹配,仔细分析搜索结果给出的同源关系变得非常重要。 第六章和第七章中,我们介绍了有关双序列和多序列比对的方法,也指出了由于轻信
另一个是由两个 A2AB 受体中的单个残基插入造成(图中下部右侧)。 5.9 多序列比对的数据库 多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输 出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据 库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。 目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将一 次数据库按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库。 关于这方面的内容超出了本书范围,难以一一详述。然而,读者应该对这些多序列比对 数据库构建的方法和它们的准确程度有所了解。 以上例子突出表明,Pfam 等采用叠代算法而未经人工检查的自动比对程序产生的结果 可能导致难以预料的错误结果。因为每次叠代所产生的假阳性结果,会随着叠代次数的增加 而累加起来,导致出现越来越多的错误比对,最终导致难以区分由随机序产生的匹配和亲缘 关系较远的序列之间匹配的区别。 综上所述,搞清各种不同比对方法和所得结果之间的区别,显然十分重要。比较图 7.1 和 7.2 的结果可以得知,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有 效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。而通过图 7.2 和 7.3 的比较, 我们可以看出,若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是 对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在选择现有的 序列模式或序列模体公开数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须 采取谨慎的态度。 5.10 基于多序列比对的数据库搜索 第 6 章的最后部分,我们探讨了利用双序列比对进行数据库搜索的各种方法。同样, 多序列比对也可以用于数据库搜索。正如前面介绍的,由多序列比对的结果可以推断用于描 述基因家族的特征的序列模式,如正则表达式、序列谱,序列模块、序列指纹图谱以及隐马 氏模型等。有关蛋白质序列模式二次数据库的搜索和分析方法,将在第 8 章中详细介绍。 与基于双序列比对的数据库方法相比,基于多序列比对的数据库搜索整合入了更多的 信息,使搜索结果更加灵敏,信噪比更高。它的缺点是所花费的时间更长,并且最终结果经 常更加不容易分析。 一般说来,对检测序列通常先进行基于双序列比对的数据库搜索。若搜索结果得到已 知基因家族的某些信息,或没有给出相似性程度较高的目标序列,则可尝试基于多序列比对 的数据库搜索方案,其目的在于找出那些相似性程度较低而又有生物学意义的目标序列。 5.10.1 位点特异性 BLAST 叠代搜索 位点特异性 BLAST(Position-Specific Iterated BLAST,简称 PSI-BLAST)叠代搜索 (Altschul 等,1997),是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。 尽管以下事实已经基本得到认同:基于序列模式的数据库搜索灵敏度较高、特异性较好,因 而可以发现一些距离较远但却具有生物学意义的相似序列;它的不足之处也不能予以忽视。 除了需要大量的计算资源这一缺点外,对于搜索结果的分析解释常常相当困难。这些制约因 素限制了它的实际使用范围。PSI-BLAST 的基本思路在于根据最初的搜索结果,依照预先 定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次叠代不 断改进这一序列谱以提高搜索的灵敏度。 和其它叠代算法一样,PSI-BLAS 方法既有不少长处,也有它的弊病。例如,如果在比 对前不把胶原蛋白、同源多聚体等低复杂度的重复序列屏蔽掉,自动叠代搜索过程会因为这 些重复序列的干扰而失败(Holm,1998)。假如第一轮的搜索结果出现一个错误序列,那么 最终搜索结果中将会出现许多不期望的无关序列(见 7.9 节)。因此,为了尽量去除大量的 错误匹配,仔细分析搜索结果给出的同源关系变得非常重要。 第六章和第七章中,我们介绍了有关双序列和多序列比对的方法,也指出了由于轻信
自动比对方法而可能产生的错误。下一章将详细介绍如何利用多序列比对的产生的信息来描 述基因家族的特性,并继续探讨手工方法和自动方法的优劣性。 511本章小结 对一个基因家族成组序列的分析需要高清该基因家族不同成员之间的关系 多序列分析可用来揭示基因家族的保守性 ◇◆与双序列比对一样,多序列比对基于某个模型。比对结果没有绝对正确或绝 对错误之分,而只能说比对模型是否可以比较准确地反映了生物数据的特性 基于序列和基于结构的序列比对模型都不够完善,因为两者都不能完全反映 所有层次的生物学信息。这两种方法各自有一定的应用范围,两者都非万应灵药。 ◇今多序列比对可以看作一张二维表,表中每一行代表一个序列,每一列代表 个残基的位置。比对前残基在序列中的位置为绝对位置,而比对后残基在序列中的 位置称相对位置 ◇◆多序列比对所需要的时间随序列个数增加而指数增长。不少多序列比对程序 采用启发式算法以降低计算复杂性,并得到并非最优但却较好的结果。 ◇◇手动比对经常被认为带有主观性,但计算机自动比对结果几乎都需要手工调 整。序列编辑程序是必不可少的工具。 对所有序列同时进行比对的计算量极大,因此只能用于不长的序列片段。 ◇今步进式多序列比对方法根据亲源树的分支对序列两两比对。相似性程度高的 先比对,相似性程度低的后加入。通过分析可能的进化关系,这种方法可以处理一 定规模的数据量 ◇◆从互联网上可供使用的数据库很多,其中有些由计算机程序自动产生,有 经过人工处理 ☆ 使用由程序自动比对产生的数据库时应注意,特别是当序列的相似性程度较 低的情况下更需谨慎,因为这些比对结果中有大量的空位插入,甚至可能误配。 ◇◇基于多序列比对的数据库搜索程序正在不断开发。PSI- BLAST是将双序列比 对和多序列比对结合在一起的叠代式数据库搜索程序。尽管它的运行速度较快,但 却有叠代本身固有的缺点,有时会得不到好的结果 512进一步阅读指南 Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ, Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 1997Sepl;25(17):3389-402 Holm L, Unification of protein families. Curr Opin Struct Biol. 1998 Jun: 8(3): 372-9 Feng DF, Doolittle Re, Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 1987, 25(4): 351-60 Feng DE, Doolittle RE, Progressive alignment of amino acid sequences and construction of phylogenetic trees from them. Methods Enzymol. 1996: 266: 368-82 Thompson JD, Higgins DG Gibson TJ, CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 1994 Nov 11: 22(22): 4673-80
自动比对方法而可能产生的错误。下一章将详细介绍如何利用多序列比对的产生的信息来描 述基因家族的特性,并继续探讨手工方法和自动方法的优劣性。 5.11 本章小结 对一个基因家族成组序列的分析需要高清该基因家族不同成员之间的关系。 多序列分析可用来揭示基因家族的保守性。 与双序列比对一样,多序列比对基于某个模型。比对结果没有绝对正确或绝 对错误之分,而只能说比对模型是否可以比较准确地反映了生物数据的特性。 基于序列和基于结构的序列比对模型都不够完善,因为两者都不能完全反映 所有层次的生物学信息。这两种方法各自有一定的应用范围,两者都非万应灵药。 多序列比对可以看作一张二维表,表中每一行代表一个序列,每一列代表一 个残基的位置。比对前残基在序列中的位置为绝对位置, 而比对后残基在序列中的 位置称相对位置。 多序列比对所需要的时间随序列个数增加而指数增长。不少多序列比对程序 采用启发式算法以降低计算复杂性,并得到并非最优但却较好的结果。 手动比对经常被认为带有主观性,但计算机自动比对结果几乎都需要手工调 整。序列编辑程序是必不可少的工具。 对所有序列同时进行比对的计算量极大,因此只能用于不长的序列片段。 步进式多序列比对方法根据亲源树的分支对序列两两比对。相似性程度高的 先比对,相似性程度低的后加入。通过分析可能的进化关系,这种方法可以处理一 定规模的数据量。 从互联网上可供使用的数据库很多,其中有些由计算机程序自动产生,有的 经过人工处理。 使用由程序自动比对产生的数据库时应注意,特别是当序列的相似性程度较 低的情况下更需谨慎,因为这些比对结果中有大量的空位插入,甚至可能误配。 基于多序列比对的数据库搜索程序正在不断开发。PSI-BLAST 是将双序列比 对和多序列比对结合在一起的叠代式数据库搜索程序。尽管它的运行速度较快,但 却有叠代本身固有的缺点,有时会得不到好的结果。 5.12 进一步阅读指南 Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997 Sep 1;25(17):3389-402. Holm L., Unification of protein families. Curr Opin Struct Biol. 1998 Jun;8(3):372-9. Feng DF, Doolittle RF., Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 1987;25(4):351-60. Feng DF, Doolittle RF., Progressive alignment of amino acid sequences and construction of phylogenetic trees from them. Methods Enzymol. 1996;266:368-82. Thompson JD, Higgins DG, Gibson TJ., CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 1994 Nov 11;22(22):4673-80.