第四章双序列比对 41引言 本章介绍序列比对时常用的几个概念,包括同一性( identity)、相似性( similarity)同 源性( homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对( pairwise alignement)是指通过一定的算法对两个DNA或蛋白质序列进行比对分析,从而找出两者 之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的 基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的 注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基 于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 42数据库检索和数据库搜索 数据库检索( database query)和数据库搜索( database search)是分子生物信息学中两 个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质 数据库输入关键词“ human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所 有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通 过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算 法,找出核酸或蛋白质序列数据库中与代查序列( query sequence)具有一定程度相似性的 序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中 找出与该代查査序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学 中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同 基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这 点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核 酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据 库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概 念和常用算法,特别是对代查序列和目标( subject)序列之间的相似性关系,做一些定量的 分析。 为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有 同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定 量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非 使用亲源性分析( Phylogeny Analysis)等其它分析方法,或有实验结果加以证实。通过对基 因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因
第四章 双序列比对 4.1 引言 本章介绍序列比对时常用的几个概念,包括同一性(identity)、相似性(similarity)同 源性(homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对(pairwise alignement)是指通过一定的算法对两个 DNA 或蛋白质序列进行比对分析,从而找出两者 之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的 基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的 注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基 于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 4.2 数据库检索和数据库搜索 数据库检索(database query)和数据库搜索(database search)是分子生物信息学中两 个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质 数据库输入关键词“human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所 有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通 过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算 法,找出核酸或蛋白质序列数据库中与代查序列(query sequence)具有一定程度相似性的 序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中 找出与该代查序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学 中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同。 基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这一 点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核 酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据 库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概 念和常用算法,特别是对代查序列和目标(subject)序列之间的相似性关系,做一些定量的 分析。 为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有 同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定 量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非 使用亲源性分析(Phylogeny Analysis)等其它分析方法,或有实验结果加以证实。通过对基 因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因
或蛋白质家族的完整性( completeness进行预测。例如,假定某个基因家族的10个成员在 鼠中已知,而在人中只找到7个,那么很有可能还有3个成员在人的基因组中有待发现。这 些分析结果还可用于药理学和分子生物学研究,用来解释某些受体对某种药物的特殊反应 尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模 板克隆人的该基因的受体提供可能性。 为了能够更有效地分析数据库搜索结果,有必要对序列比对的基本原理和数据库搜索 的常用算法和有一个比较详细的介绍。 43字母表和复杂度 核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定 义为它所包含的不同字母的数目。例如英语字母表的复杂度是26:DNA序列的字母表复杂 度是4。假定序列中含有不确定的碱基N(例如表达序列标签EST),则其复杂度为5。蛋白 质序列由20种氨基酸残基组成,其复杂度为20。若某个残基未定,则用X表示。有时用B 表示天冬酰胺或天冬氨酸,若用三字符表示,则写成Asx:用Z表示谷氨酰胺或谷氨酸,若 用三字符表示,则写成Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉 及这些特殊残基,只讨论由20中普通氨基酸组成的蛋白质序列 44算法和程序 在开始介绍序列比对的基本原理前,有必要分清算法和程序之间的区别。所谓算法, 是指按照一定的方式描述计算过程或处理某个问题的一系列步骤,而程序则是算法的具体实 现,也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多 种实现的方法。如果算法的描述或定义明确,那么这些不同的实现方法,即不同的程序应给 出同样的结果。然而,对某个算法可能有不同的理解,在具体实现时,可能会有一定的区别。 4双序列比对简例 首先,我们用一个简单的例子说明序列比对的基本原理。图6.1所示是对两个蛋白质序 列片段进行比对的一般方法,基本思想是将两个序列上下排列,若上下对应的残基相同,则 用竖线表示。可以通过插入空位(gap)使上下两个序列具有最好的匹配,即两个序列之间 对用所对应的相同残基最多。 插入空位前 序列1(代查序列) AGGVLIIQVE
或蛋白质家族的完整性(completeness)进行预测。例如,假定某个基因家族的 10 个成员在 鼠中已知,而在人中只找到 7 个,那么很有可能还有 3 个成员在人的基因组中有待发现。这 些分析结果还可用于药理学和分子生物学研究,用来解释某些受体对某种药物的特殊反应, 尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模 板克隆人的该基因的受体提供可能性。 为了能够更有效地分析数据库搜索结果,有必要对序列比对的基本原理和数据库搜索 的常用算法和有一个比较详细的介绍。 4.3 字母表和复杂度 核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定 义为它所包含的不同字母的数目。例如英语字母表的复杂度是 26;DNA 序列的字母表复杂 度是 4。假定序列中含有不确定的碱基 N(例如表达序列标签 EST),则其复杂度为 5。蛋白 质序列由 20 种氨基酸残基组成,其复杂度为 20。若某个残基未定,则用 X 表示。有时用 B 表示天冬酰胺或天冬氨酸,若用三字符表示,则写成 Asx;用 Z 表示谷氨酰胺或谷氨酸,若 用三字符表示,则写成 Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉 及这些特殊残基,只讨论由 20 中普通氨基酸组成的蛋白质序列。 4.4 算法和程序 在开始介绍序列比对的基本原理前,有必要分清算法和程序之间的区别。所谓算法, 是指按照一定的方式描述计算过程或处理某个问题的一系列步骤,而程序则是算法的具体实 现,也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多 种实现的方法。如果算法的描述或定义明确,那么这些不同的实现方法,即不同的程序应给 出同样的结果。然而,对某个算法可能有不同的理解,在具体实现时,可能会有一定的区别。 4.5 双序列比对简例 首先,我们用一个简单的例子说明序列比对的基本原理。图 6.1 所示是对两个蛋白质序 列片段进行比对的一般方法,基本思想是将两个序列上下排列,若上下对应的残基相同,则 用竖线表示。可以通过插入空位(gap)使上下两个序列具有最好的匹配,即两个序列之间 对用所对应的相同残基最多。 插入空位前 序列 1 (代查序列) AGGVLIIQVE ||||||
序列2(目标序列) GGVLIQVG 插入空位后 序列1(代查序列) GGVLIIQVE 序列2(目标序列) AGGVLI-QvG 图61利用插入空位的方法获得最佳序列匹配 图中竖线表示相同残基之间的匹配,插入空位前共有6个相同残基,插入空位后 共有9个相同残基 下一步,则可以计算相同残基个数,并用分数给出定量指标。如图61中未经比对以前 的得分为6,而比对后的得分为9。 显然,从这个例子中可以看出,匹配对准的相同残基数越多,两个序列之间相似性比 对的得分就越高。当然,这只是一个用来说明比对原理的简单例子,序列很短,只有10来 个残基,而大多数蛋白质序列的长度为200到500个残基,甚至更长。其次,这两个序列的 长度几乎相等,而在实际情况下代查序列和目标序列的长度往往差别很大。此外,这两个序 列的大部分残基相同,没有其它可选择的匹配方式 另一方面,序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由 此而引出距离矩阵的概念,即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列 比对所用的距离矩阵可能不止一个,同一算法的不同实现所用的距离矩阵可能会有所不同 46子序列 为了进一步说明序列比对的基本原理,下面我们用一对比较接近实际的序列。假定序 列A有400个残基,序列B有650个残基。如果序列A与序列B的一部分相同,则可以认 为A是B的子序列。此时,只要在适当部位插入空位,就可以使序列A和序列B完全匹配 假定序列A中有两个片段分别与序列B中的两个片段相同。通过序列比对,可以找出 这些相同片段,并在序列A中插入空位,使序列A与序列B有最大的匹配,如图62(b) 所示。此时,可以找出序列A与序列B之间具有最好匹配的子序列。利用简单的渐进算法 可以直接实现上述比对,因为两个序列之间的相似片段比较明显。 47同一性和相似性 上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作
序列 2 (目标序列) AGGVLIQVG 插入空位后 序列 1 (代查序列) AGGVLIIQVE |||||| ||| 序列 2 (目标序列) AGGVLI-QVG 图 6.1 利用插入空位的方法获得最佳序列匹配 图中竖线表示相同残基之间的匹配,插入空位前共有 6 个相同残基,插入空位后 共有 9 个相同残基 下一步,则可以计算相同残基个数,并用分数给出定量指标。如图 6.1 中未经比对以前 的得分为 6,而比对后的得分为 9。 显然,从这个例子中可以看出,匹配对准的相同残基数越多,两个序列之间相似性比 对的得分就越高。当然,这只是一个用来说明比对原理的简单例子,序列很短,只有 10 来 个残基,而大多数蛋白质序列的长度为 200 到 500 个残基,甚至更长。其次,这两个序列的 长度几乎相等,而在实际情况下代查序列和目标序列的长度往往差别很大。此外,这两个序 列的大部分残基相同,没有其它可选择的匹配方式。 另一方面,序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由 此而引出距离矩阵的概念,即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列 比对所用的距离矩阵可能不止一个,同一算法的不同实现所用的距离矩阵可能会有所不同。 4.6 子序列 为了进一步说明序列比对的基本原理,下面我们用一对比较接近实际的序列。假定序 列 A 有 400 个残基,序列 B 有 650 个残基。如果序列 A 与序列 B 的一部分相同,则可以认 为 A 是 B 的子序列。此时,只要在适当部位插入空位,就可以使序列 A 和序列 B 完全匹配。 假定序列 A 中有两个片段分别与序列 B 中的两个片段相同。通过序列比对,可以找出 这些相同片段,并在序列 A 中插入空位,使序列 A 与序列 B 有最大的匹配,如图 6.2(b) 所示。此时,可以找出序列 A 与序列 B 之间具有最好匹配的子序列。利用简单的渐进算法, 可以直接实现上述比对,因为两个序列之间的相似片段比较明显。 4.7 同一性和相似性 上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作
中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配:所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为1和0的分数矩阵(见表 6.1),即相同残基的分数值为1,不同残基的分数值为θ。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度 而又不至于降低信噪比,是序列比对算法的核心 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 471突变数据矩阵 突变数据矩阵( Mutation data matriⅸx,简称MD, Dayhoff等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称PAM。1个PAM的进化距离表示在100个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250相似性分数矩阵相当于 在两个序列之间具有20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
出现的概率的比值的矩阵。这些比值可以用相关几率( relatedness odds)矩阵表示。在序列 比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值 在实际使用时,通常取几率值的对数以简化运算。因此,常用的突变数据矩阵PAM250实 际上是几率值的对数矩阵(表62)。矩阵中值大于0的元素所对应的两个残基之间发生突变 的可能性较大,值小于0的元素所对应的两个残基之间发生突变的可能性较小。 表62突变数据相似性分数矩阵PAM250 s02 T-213 2 G-310-115 N410-1002 D-500-10124 E500-100134 Q5|-1-10011224 H-3-1-10-1-221136 R40-10230-11126 K500-1-121001035 M5|-21-213232-1-2006 1-2-10-21-32-2-22-2-2-22 L-6-3-23-24343-2-233426 V-2|-10-101|-222-222-22424 F4|33-545-2-65-5-245012-19 Y0|-3353-7-2444044-2-1-1-2710 W8|2566174715|323|45260017 C S T P AGIND EQH R KIM I L VIF YW 表中把理化性质相似的氨基酸按组排列在一起,正值表示进化上的保守替代, 值越大,保守性越大 序列分析的难点是要确定那些仅有20%相似性的序列之间是否具有同源关系。PAM250
出现的概率的比值的矩阵。这些比值可以用相关几率(relatedness odds)矩阵表示。在序列 比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。 在实际使用时,通常取几率值的对数以简化运算。因此,常用的突变数据矩阵 PAM250 实 际上是几率值的对数矩阵(表 6.2)。矩阵中值大于 0 的元素所对应的两个残基之间发生突变 的可能性较大,值小于 0 的元素所对应的两个残基之间发生突变的可能性较小。 表 6.2 突变数据相似性分数矩阵 PAM250 C 12 S 0 2 T -2 1 3 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0 -1 1 5 N -4 1 0 -1 0 0 2 D -5 0 0 -1 0 1 2 4 E -5 0 0 -1 0 0 1 3 4 Q -5 -1 -1 0 0 -1 1 2 2 4 H -3 -1 -1 0 -1 -2 2 1 1 3 6 R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 F -4 -3 -3 -5 -4 -5 -2 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 Y 0 -3 -3 -5 -3 -7 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10 W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W * 表中把理化性质相似的氨基酸按组排列在一起,正值表示进化上的保守替代, 值越大,保守性越大。 序列分析的难点是要确定那些仅有 20%相似性的序列之间是否具有同源关系。PAM250
突变数据矩阵因此成为很多序列分析软件的缺省矩阵,因为它在20%的水平上反映出两个 序列之间的相似性。按理说,使用与比对序列的实际进化距离更接近的相似性矩阵更为有效, 但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致 先入为主的错误。因此,在实际进行序列比对时,应该选择各种不同的相似性分数矩阵进行 多次比对,并对比对结果进行分析比较,才能得到比较理想的结果 472 BLOSUM矩阵 突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离 较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到 定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数 据矩阵在实际使用时存在着一定的局限性。 为了克服上述弊病, Henikoff'夫妇( Henikof和 Heniko,1992)从蛋白质模块数据库 BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设 置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引 入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以 有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等 于80%相同的序列组成的串可用于产生 BLOSUM80矩阵( BIOcks substitution matrix发音 为 blossom):那些有62%或以上相同的串用于产生 BLOSUM62矩阵,依此类推。 473序列比对的统计检验 序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列 比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参 数可以得到不同的比对结果,例如空位罚分值大小。此外,序列长度差异和字母表复杂度也 会比对结果产生影响。合理地调节参数,会减少空位数目,得到较好的结果,而放宽对空位 罚分的限制,理论上可以对任意两个序列进行比对而得到某个结果。因此,序列比对的结果 并不能作为两者之间一定存在同源关系的依据。 常用序列比对程序通常给出一些统计值,用来表示结果的可信度。 BLAST程序中使用 的统计值有概率p和期望值E。p值表示比对结果得到的分数值的可信度。一般说来,p值 越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能 性越大。期望值E描述的是搜索某一特定数据库时,随机出现的匹配序列数目。例如,E值 为1可以解释为当前搜索中,由随机产生的相同分值的匹配的可能性为1。而E值为0则表 明搜索结果不大可能是随机产生的
突变数据矩阵因此成为很多序列分析软件的缺省矩阵,因为它在 20%的水平上反映出两个 序列之间的相似性。按理说,使用与比对序列的实际进化距离更接近的相似性矩阵更为有效, 但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致 先入为主的错误。因此,在实际进行序列比对时,应该选择各种不同的相似性分数矩阵进行 多次比对,并对比对结果进行分析比较,才能得到比较理想的结果。 4.7.2 BLOSUM 矩阵 突变数据矩阵的产生基于相似性较高(通常为 85%以上)的序列比对,那些进化距离 较远的矩阵(如 PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到 一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数 据矩阵在实际使用时存在着一定的局限性。 为了克服上述弊病,Henikoff 夫妇(Henikoff 和 Henikoff,1992)从蛋白质模块数据库 BLOCKS 中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设 置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引 入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以 有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等 于 80%相同的序列组成的串可用于产生 BLOSUM80 矩阵(BlOcks SUbstitution Matrix 发音 为 blossom);那些有 62%或以上相同的串用于产生 BLOSUM62 矩阵,依此类推。 4.7.3 序列比对的统计检验 序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列 比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参 数可以得到不同的比对结果,例如空位罚分值大小。此外,序列长度差异和字母表复杂度也 会比对结果产生影响。合理地调节参数,会减少空位数目,得到较好的结果,而放宽对空位 罚分的限制,理论上可以对任意两个序列进行比对而得到某个结果。因此,序列比对的结果 并不能作为两者之间一定存在同源关系的依据。 常用序列比对程序通常给出一些统计值,用来表示结果的可信度。BLAST 程序中使用 的统计值有概率 p 和期望值 E。p 值表示比对结果得到的分数值的可信度。一般说来,p 值 越接近于零,则比对结果的可信度越大;相反,p 值越大,则比对结果来自随机匹配的可能 性越大。期望值 E 描述的是搜索某一特定数据库时,随机出现的匹配序列数目。例如,E 值 为 1 可以解释为当前搜索中,由随机产生的相同分值的匹配的可能性为 1。而 E 值为 0 则表 明搜索结果不大可能是随机产生的
48点阵图 点阵图( dotplot)是用图示方法进行双序列比对的最基本方法。假定由两个序列A和B, 它们的长度不一定相同,但最好相差不大。把序列A的残基序列沿ⅹ轴排列,序列B的残 基序列沿Y轴排列,并构建一个矩阵。该矩阵所有元素的初始值均为0。对每个矩阵元素 XiY,赋予一个相似性值,表示该矩阵元素对应的两个残基之间的相似性程度,其中i的值 为1到序列A的长度,j的值为1到和序列B的长度。如果只考虑同一性而不考虑相似性, 则可以简单地将序列A和序列B相同残基所对应的矩阵元素的值置1,不同残基所对应的 矩阵元素的值置0。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值 为1的元素,如表63中的字符X。若序列较长时,则可以使用适当的图形程序(图66) 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值为 的元素,如表63中的字符X。若序列较长时,则可以使用适当的图形程序(图66)。 M T FRDL S VSFEGPRPDSSAG G FRDLLs SFE
4.8 点阵图 点阵图(dotplot)是用图示方法进行双序列比对的最基本方法。假定由两个序列 A 和 B, 它们的长度不一定相同,但最好相差不大。把序列 A 的残基序列沿 X 轴排列,序列 B 的残 基序列沿 Y 轴排列,并构建一个矩阵。该矩阵所有元素的初始值均为 0。对每个矩阵元素 XiYj,赋予一个相似性值,表示该矩阵元素对应的两个残基之间的相似性程度,其中 i 的值 为 1 到序列 A 的长度,j 的值为 1 到和序列 B 的长度。如果只考虑同一性而不考虑相似性, 则可以简单地将序列 A 和序列 B 相同残基所对应的矩阵元素的值置 1,不同残基所对应的 矩阵元素的值置 0。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值 为 1 的元素,如表 6.3 中的字符 X。若序列较长时,则可以使用适当的图形程序(图 6.6)。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值为 1 的元素,如表 6.3 中的字符 X。若序列较长时,则可以使用适当的图形程序(图 6.6)。 * M T F R D L L S V S F E G P R P D S S A G G S S A G G M * T * F * * R * * D * * L * * L * * S * * * * * * V * S * * * * * * F * * E * G * * * * * P * * R * * P * *
表63序列比对的点阵图方式 若某一位置所对应的两个残基相同,则在该位置用“*”号表示。 点阵图的最基本特征是有一些由噪音组成的随机点和具有信号特征的主对角线。其中主 对角线由连续的点组成,它代表两条序列中具有相似性的区域。为清楚起见,表63中用Ⅹ 表示。点阵图为从噪声背景中提取信号提供了一个图形表示法。尤其是在对于数据库搜索的 结果的解释方面。 点阵图中两条完全相同的序列被表示成一条连续的对角线,如图66a)所示。为了能够 在一张图中表示出两个较长序列的比较结果,必须提高点阵图的分辨率。因此,表63中的 Ⅹ被替换成了点,连续的点连接在一起构成线。点阵图的名称由此而来 两条不完全相同却具有一定相似性的序列在点阵图上表示为一些间断的对角线。其中不 相连的区域表示那些不匹配的区域,如图66(b)所示。那些相似性程度较低的序列所构成的 点阵图具有较大的噪声。而一定长度的相似序列片段则在点阵图上以成组的、较短的对角线 出现。它们平行于主对角线,其距离则反映了插入空位的多少 以上,我们讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的打 分规则而构建,这些打分规则规定了不同残基之间相似性程度的分值。例如,可以根据不同 残基之间在进化、结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种 情况下,由于点阵图不只是简单的稀疏矩阵,那些偏离主对角线的点也可能具有相当重要的 作用,所以过滤掉噪音就变得十分重要了。常用的方法是引入滑动窗口算法作为平滑函数提 高点阵图的信噪比 49局部相似性和整体相似性 从上面的介绍中可以看出,序列比对是一个简单的数学模型,模型的参数可以加以调节 不同的模型所反映的生物学性质不同。例如,可以根据分子间的结构、功能和进化等方面的 相关性来进行构建。必须指出,比对的结果是没有正确和错误之分的,其区别是由于模型所 反映的生物学性质的不同。 总体来说,比对模型可以分为两类,一类是考察两个序列之间的整体相似性,称全局性 比对:另一类则着眼于序列中的某些特殊片段,比较这些片段之间的相似性,即局部性比对
D * * S * * * * * * S * * * * * * A * * G * * * * * G * * * * * 表 6.3 序列比对的点阵图方式 若某一位置所对应的两个残基相同,则在该位置用“*”号表示。 点阵图的最基本特征是有一些由噪音组成的随机点和具有信号特征的主对角线。其中主 对角线由连续的点组成,它代表两条序列中具有相似性的区域。为清楚起见,表 6.3 中用 X 表示。点阵图为从噪声背景中提取信号提供了一个图形表示法。尤其是在对于数据库搜索的 结果的解释方面。 点阵图中两条完全相同的序列被表示成一条连续的对角线,如图 6.6(a)所示。为了能够 在一张图中表示出两个较长序列的比较结果,必须提高点阵图的分辨率。因此,表 6.3 中的 X 被替换成了点,连续的点连接在一起构成线。点阵图的名称由此而来。 两条不完全相同却具有一定相似性的序列在点阵图上表示为一些间断的对角线。其中不 相连的区域表示那些不匹配的区域,如图 6.6(b)所示。那些相似性程度较低的序列所构成的 点阵图具有较大的噪声。而一定长度的相似序列片段则在点阵图上以成组的、较短的对角线 出现。它们平行于主对角线,其距离则反映了插入空位的多少。 以上,我们讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的打 分规则而构建,这些打分规则规定了不同残基之间相似性程度的分值。例如,可以根据不同 残基之间在进化、结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种 情况下,由于点阵图不只是简单的稀疏矩阵,那些偏离主对角线的点也可能具有相当重要的 作用,所以过滤掉噪音就变得十分重要了。常用的方法是引入滑动窗口算法作为平滑函数提 高点阵图的信噪比。 4.9 局部相似性和整体相似性 从上面的介绍中可以看出,序列比对是一个简单的数学模型,模型的参数可以加以调节。 不同的模型所反映的生物学性质不同。例如,可以根据分子间的结构、功能和进化等方面的 相关性来进行构建。必须指出,比对的结果是没有正确和错误之分的,其区别是由于模型所 反映的生物学性质的不同。 总体来说,比对模型可以分为两类,一类是考察两个序列之间的整体相似性,称全局性 比对;另一类则着眼于序列中的某些特殊片段,比较这些片段之间的相似性,即局部性比对
区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指 出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然 是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相 同 目前常用的 BLAST和 Fasta等数据库搜索程序均采用局部相似性比对的方法,具有较 快的运行速度,采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中 的功能位点,如酶的催化位点等。它们通常只有一个或几个残基,具有较高的保守性,并且 不受序列中其它部分的插入和突变的影响。从这个意义上说,局部相似性搜索比整体相似性 比对更加灵敏,也更具有生物学意义。需要指出的是,这并不能说明那些具有一定相似性的 序列片段一定具有相同的三维结构 410整体比对算法 在对上述基本概念有所了解后,我们开始讨论整体比对的 Needleman和 Wunsch算法 ( Needleman和 Wunsch,1970)。从本质上讲,这一算法和已经广为使用的点阵图方法类似 整体比对方法中,两条蛋白质序列具有最多匹配残基定义为最佳匹配,其中允许进行必要的 插入或缺失。为控制无限制的空位插入,我们引入罚分( penalty)的概念 与点阵图类似,整体比对基于一个二维矩阵,并通过某种算法找出最佳匹配路径。矩阵 的最基本形式是:将两序列中匹配残基所对应的单元的值置为1,不匹配的值置为0。然后 对矩阵中的每个单元进行连续求和,即把能够到达该位置的所有单元中的最大值与该位置的 值相加。若当前位置为第i行、第j列,那么能够达到它的单元为:(a)第计1行中的第j 个单元之后的所有单元;(b)第计1列中的第i个单元之后的所有单元。对矩阵的所有单元 都重复这一操作,直到全部结束为止。这样,可以构建一条最大匹配路径,它由N末端具 有最大值的单元格开始,按照取最大值的原则一直到C末端,即从序列的起始开始到最后 一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下, 可以籍此来寻求最大比对。假如不允许空位插入,则只能找一条分值较低的路径。 下面我们通过两条短序列“ ADLAVFALCDRYFQ”和“ ADLGRTQNCDRYYQ”的比对详 细讨论这一算法。根据算法,首先构建一个二维矩阵,用来表示两个序列的匹配状况。第 个序列沿水平方向,即X轴;第二个序列沿垂直方向,即Y轴(表64)。 A DLGAVFALCDRY F Q A100010010000000 D010000000010000 L001000001000000 G000100000000000
区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指 出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然 是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相 同。 目前常用的 BLAST 和 FastA 等数据库搜索程序均采用局部相似性比对的方法,具有较 快的运行速度,采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中 的功能位点,如酶的催化位点等。它们通常只有一个或几个残基,具有较高的保守性,并且 不受序列中其它部分的插入和突变的影响。从这个意义上说,局部相似性搜索比整体相似性 比对更加灵敏,也更具有生物学意义。需要指出的是,这并不能说明那些具有一定相似性的 序列片段一定具有相同的三维结构。 4.10 整体比对算法 在对上述基本概念有所了解后,我们开始讨论整体比对的 Needleman 和 Wunsch 算法 (Needleman 和 Wunsch,1970)。从本质上讲,这一算法和已经广为使用的点阵图方法类似。 整体比对方法中,两条蛋白质序列具有最多匹配残基定义为最佳匹配,其中允许进行必要的 插入或缺失。为控制无限制的空位插入,我们引入罚分(penalty)的概念。 与点阵图类似,整体比对基于一个二维矩阵,并通过某种算法找出最佳匹配路径。矩阵 的最基本形式是:将两序列中匹配残基所对应的单元的值置为 1,不匹配的值置为 0。然后 对矩阵中的每个单元进行连续求和,即把能够到达该位置的所有单元中的最大值与该位置的 值相加。若当前位置为第 i 行、第 j 列,那么能够达到它的单元为:(a)第 i+1 行中的第 j 个单元之后的所有单元;(b)第 j+1 列中的第 i 个单元之后的所有单元。对矩阵的所有单元 都重复这一操作,直到全部结束为止。这样,可以构建一条最大匹配路径,它由 N 末端具 有最大值的单元格开始,按照取最大值的原则一直到 C 末端,即从序列的起始开始到最后 一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下, 可以籍此来寻求最大比对。假如不允许空位插入,则只能找一条分值较低的路径。 下面我们通过两条短序列“ADLAVFALCDRYFQ”和“ADLGRTQNCDRYYQ”的比对详 细讨论这一算法。根据算法,首先构建一个二维矩阵,用来表示两个序列的匹配状况。第一 个序列沿水平方向,即 X 轴;第二个序列沿垂直方向,即 Y 轴(表 6.4)。 A D L G A V F A L C D R Y F Q A 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 D 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 L 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 G 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
R000000000001000 T00000000000000 Q000000000000001 N000000000000000 C000000000100000 D010000000010000 R00000000000100 Y000000000000100 Y000000000000100 Q000000000000001 表6.4 Needleman和 Wunsch算法初始矩阵 接下来开始对矩阵单元连续求和。此处,从矩阵中最后一个单元开始。具体操作时, 从最后一行、最后一列开始,先按列,后按行,逐步进行。本例中最后一列为谷氨酰胺Q 而Y轴方向的序列有两个Q,按照相同匹配的分值为1的原则,该列的两个单元的分值为1, 其它均为0。 下一步统计倒数第2列,从该列的最后一行开始。该矩阵单元对应的残基不同,X轴 方向为F,而Y轴方向为Q,因此,该单元的分值为0。从该列往上,下一个单元对应的残 基为F和Y,也是一对非匹配残基,其本身的分值为0。这一单元的总体分值为1。因为根 据连续求和原则,能够达到该单元的唯一的单元的值为1。从该单元往上,这一列中其它单 元的分值均为1,这是因为该列残基F与Y轴方向序列的残基均不匹配,单元本身的分值均 为0,而且可达到它们的单元中最大值(Q-Q单元提供)为1。 ADLIGAVIFJALICIDRY FIQ A100101001000000( D010000000010000 G|000100005432110 00000005432110 Too o 0005432111
R 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 T 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 N 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 D 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 R 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 Y 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 Y 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 表 6.4 Needleman 和 Wunsch 算法初始矩阵 接下来开始对矩阵单元连续求和。此处,从矩阵中最后一个单元开始。具体操作时, 从最后一行、最后一列开始,先按列,后按行,逐步进行。本例中最后一列为谷氨酰胺 Q, 而 Y 轴方向的序列有两个 Q,按照相同匹配的分值为 l 的原则,该列的两个单元的分值为 1, 其它均为 0。 下一步统计倒数第 2 列,从该列的最后一行开始。该矩阵单元对应的残基不同,X 轴 方向为 F,而 Y 轴方向为 Q,因此,该单元的分值为 0。从该列往上,下一个单元对应的残 基为 F 和 Y,也是一对非匹配残基,其本身的分值为 0。这一单元的总体分值为 1。因为根 据连续求和原则,能够达到该单元的唯一的单元的值为 1。从该单元往上,这一列中其它单 元的分值均为 1,这是因为该列残基 F 与 Y 轴方向序列的残基均不匹配,单元本身的分值均 为 0,而且可达到它们的单元中最大值(Q-Q 单元提供)为 1。 A D L G A V F A L C D R Y F Q A 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 D 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 L 0 0 1 0 0 0 0 0 1 4 3 2 1 1 0 G 0 0 0 1 0 0 0 0 5 4 3 2 1 1 0 R 0 0 0 0 0 0 0 0 5 4 3 3 1 1 0 T 0 0 0 0 0 0 0 0 5 4 3 2 1 1 0 Q 0 0 0 0 0 0 0 0 5 4 3 2 1 1 1