《生物信息学》课程教学资源（电子讲义）第四章双序列比对.pdf_大学文库

第四章双序列比对 41引言本章介绍序列比对时常用的几个概念,包括同一性( identity)、相似性( similarity)同源性( homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对( pairwise alignement)是指通过一定的算法对两个DNA或蛋白质序列进行比对分析,从而找出两者之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 42数据库检索和数据库搜索数据库检索( database query)和数据库搜索( database search)是分子生物信息学中两个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质数据库输入关键词“ human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与代查序列( query sequence)具有一定程度相似性的序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中找出与该代查査序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概念和常用算法,特别是对代查序列和目标( subject)序列之间的相似性关系,做一些定量的分析。为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非使用亲源性分析( Phylogeny Analysis)等其它分析方法,或有实验结果加以证实。通过对基因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因

第四章双序列比对 4.1 引言本章介绍序列比对时常用的几个概念，包括同一性（identity）、相似性（similarity）同源性（homology）等。这些概念，在蛋白质和核酸序列比对时经常使用。双序列比对（pairwise alignement）是指通过一定的算法对两个 DNA 或蛋白质序列进行比对分析，从而找出两者之间最大相似性匹配。双序列比对是序列分析常用方法之一，是多序列比对和数据库搜索的基础。双序列比对基于一定的算法，而这些算法是基于序列本身的属性而不是关于该序列的注释信息。双序列比对基本上可以分为两类，一类是基于序列的局部相似性，而另一类则基于序列的全局相似性。两者之间无论是生物学基础，还是所用的算法，都有很大区别。 4.2 数据库检索和数据库搜索数据库检索（database query）和数据库搜索（database search）是分子生物信息学中两个不同的概念，有时常被混淆，有必要把这两个术语作简单说明。所谓数据库检索，是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如，对核酸或蛋白质数据库输入关键词“human adrenergic recptors”（人的肾上腺素受体），即可找出数据库中所有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索，它和因特网上通过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与代查序列（query sequence）具有一定程度相似性的序列。例如，给定人的肾上腺素受体序列，通过数据库搜索，在核酸或蛋白质序列数据库中找出与该代查序列具有一定相似性的序列。显然，数据库检索和数据库搜索是在生物信息学中是两个完全不同的概念，它们所要解决的问题、所采用的方法和得到的结果均不相同。基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分，这一点不应予以忽略。然而，在生物信息学应用研究中，我们经常面临的问题是已经测得一个核酸序列片段，或一个由核酸序列翻译得到的蛋白质序列片段，而尚无注释信息。此时，数据库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概念和常用算法，特别是对代查序列和目标（subject）序列之间的相似性关系，做一些定量的分析。为了识别一个新测定的序列和一个已知基因家族之间的进化关系，确定它们是否具有同源性，通常需要通过序列比对，找出它们之间核苷酸碱基或氨基残基的最大匹配，从而定量给出其相似性程度。如果两者的相似性程度很低，则很难确定它们是否具有同源性，除非使用亲源性分析（Phylogeny Analysis）等其它分析方法，或有实验结果加以证实。通过对基因或蛋白质之间家族关系的分析，可以从浩繁的基因组信息中找出一些线索，从而对该基因

或蛋白质家族的完整性( completeness进行预测。例如,假定某个基因家族的10个成员在鼠中已知,而在人中只找到7个,那么很有可能还有3个成员在人的基因组中有待发现。这些分析结果还可用于药理学和分子生物学研究,用来解释某些受体对某种药物的特殊反应尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模板克隆人的该基因的受体提供可能性。为了能够更有效地分析数据库搜索结果,有必要对序列比对的基本原理和数据库搜索的常用算法和有一个比较详细的介绍。 43字母表和复杂度核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定义为它所包含的不同字母的数目。例如英语字母表的复杂度是26:DNA序列的字母表复杂度是4。假定序列中含有不确定的碱基N(例如表达序列标签EST),则其复杂度为5。蛋白质序列由20种氨基酸残基组成,其复杂度为20。若某个残基未定,则用X表示。有时用B 表示天冬酰胺或天冬氨酸,若用三字符表示,则写成Asx:用Z表示谷氨酰胺或谷氨酸,若用三字符表示,则写成Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉及这些特殊残基,只讨论由20中普通氨基酸组成的蛋白质序列 44算法和程序在开始介绍序列比对的基本原理前,有必要分清算法和程序之间的区别。所谓算法, 是指按照一定的方式描述计算过程或处理某个问题的一系列步骤,而程序则是算法的具体实现,也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多种实现的方法。如果算法的描述或定义明确,那么这些不同的实现方法,即不同的程序应给出同样的结果。然而,对某个算法可能有不同的理解,在具体实现时,可能会有一定的区别。 4双序列比对简例首先,我们用一个简单的例子说明序列比对的基本原理。图6.1所示是对两个蛋白质序列片段进行比对的一般方法,基本思想是将两个序列上下排列,若上下对应的残基相同,则用竖线表示。可以通过插入空位(gap)使上下两个序列具有最好的匹配,即两个序列之间对用所对应的相同残基最多。插入空位前序列1(代查序列) AGGVLIIQVE

或蛋白质家族的完整性（completeness）进行预测。例如，假定某个基因家族的 10 个成员在鼠中已知，而在人中只找到 7 个，那么很有可能还有 3 个成员在人的基因组中有待发现。这些分析结果还可用于药理学和分子生物学研究，用来解释某些受体对某种药物的特殊反应，尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模板克隆人的该基因的受体提供可能性。为了能够更有效地分析数据库搜索结果，有必要对序列比对的基本原理和数据库搜索的常用算法和有一个比较详细的介绍。 4.3 字母表和复杂度核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定义为它所包含的不同字母的数目。例如英语字母表的复杂度是 26；DNA 序列的字母表复杂度是 4。假定序列中含有不确定的碱基 N（例如表达序列标签 EST），则其复杂度为 5。蛋白质序列由 20 种氨基酸残基组成，其复杂度为 20。若某个残基未定，则用 X 表示。有时用 B 表示天冬酰胺或天冬氨酸，若用三字符表示，则写成 Asx；用 Z 表示谷氨酰胺或谷氨酸，若用三字符表示，则写成 Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉及这些特殊残基，只讨论由 20 中普通氨基酸组成的蛋白质序列。 4.4 算法和程序在开始介绍序列比对的基本原理前，有必要分清算法和程序之间的区别。所谓算法，是指按照一定的方式描述计算过程或处理某个问题的一系列步骤，而程序则是算法的具体实现，也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多种实现的方法。如果算法的描述或定义明确，那么这些不同的实现方法，即不同的程序应给出同样的结果。然而，对某个算法可能有不同的理解，在具体实现时，可能会有一定的区别。 4.5 双序列比对简例首先，我们用一个简单的例子说明序列比对的基本原理。图 6.1 所示是对两个蛋白质序列片段进行比对的一般方法，基本思想是将两个序列上下排列，若上下对应的残基相同，则用竖线表示。可以通过插入空位（gap）使上下两个序列具有最好的匹配，即两个序列之间对用所对应的相同残基最多。插入空位前序列 1 （代查序列） AGGVLIIQVE ||||||

序列2(目标序列) GGVLIQVG 插入空位后序列1(代查序列) GGVLIIQVE 序列2(目标序列) AGGVLI-QvG 图61利用插入空位的方法获得最佳序列匹配图中竖线表示相同残基之间的匹配,插入空位前共有6个相同残基,插入空位后共有9个相同残基下一步,则可以计算相同残基个数,并用分数给出定量指标。如图61中未经比对以前的得分为6,而比对后的得分为9。显然,从这个例子中可以看出,匹配对准的相同残基数越多,两个序列之间相似性比对的得分就越高。当然,这只是一个用来说明比对原理的简单例子,序列很短,只有10来个残基,而大多数蛋白质序列的长度为200到500个残基,甚至更长。其次,这两个序列的长度几乎相等,而在实际情况下代查序列和目标序列的长度往往差别很大。此外,这两个序列的大部分残基相同,没有其它可选择的匹配方式另一方面,序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由此而引出距离矩阵的概念,即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列比对所用的距离矩阵可能不止一个,同一算法的不同实现所用的距离矩阵可能会有所不同 46子序列为了进一步说明序列比对的基本原理,下面我们用一对比较接近实际的序列。假定序列A有400个残基,序列B有650个残基。如果序列A与序列B的一部分相同,则可以认为A是B的子序列。此时,只要在适当部位插入空位,就可以使序列A和序列B完全匹配假定序列A中有两个片段分别与序列B中的两个片段相同。通过序列比对,可以找出这些相同片段,并在序列A中插入空位,使序列A与序列B有最大的匹配,如图62(b) 所示。此时,可以找出序列A与序列B之间具有最好匹配的子序列。利用简单的渐进算法可以直接实现上述比对,因为两个序列之间的相似片段比较明显。 47同一性和相似性上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作

序列 2 （目标序列） AGGVLIQVG 插入空位后序列 1 （代查序列） AGGVLIIQVE |||||| ||| 序列 2 （目标序列） AGGVLI-QVG 图 6.1 利用插入空位的方法获得最佳序列匹配图中竖线表示相同残基之间的匹配，插入空位前共有 6 个相同残基，插入空位后共有 9 个相同残基下一步，则可以计算相同残基个数，并用分数给出定量指标。如图 6.1 中未经比对以前的得分为 6，而比对后的得分为 9。显然，从这个例子中可以看出，匹配对准的相同残基数越多，两个序列之间相似性比对的得分就越高。当然，这只是一个用来说明比对原理的简单例子，序列很短，只有 10 来个残基，而大多数蛋白质序列的长度为 200 到 500 个残基，甚至更长。其次，这两个序列的长度几乎相等，而在实际情况下代查序列和目标序列的长度往往差别很大。此外，这两个序列的大部分残基相同，没有其它可选择的匹配方式。另一方面，序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由此而引出距离矩阵的概念，即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列比对所用的距离矩阵可能不止一个，同一算法的不同实现所用的距离矩阵可能会有所不同。 4.6 子序列为了进一步说明序列比对的基本原理，下面我们用一对比较接近实际的序列。假定序列 A 有 400 个残基，序列 B 有 650 个残基。如果序列 A 与序列 B 的一部分相同，则可以认为 A 是 B 的子序列。此时，只要在适当部位插入空位，就可以使序列 A 和序列 B 完全匹配。假定序列 A 中有两个片段分别与序列 B 中的两个片段相同。通过序列比对，可以找出这些相同片段，并在序列 A 中插入空位，使序列 A 与序列 B 有最大的匹配，如图 6.2（b）所示。此时，可以找出序列 A 与序列 B 之间具有最好匹配的子序列。利用简单的渐进算法，可以直接实现上述比对，因为两个序列之间的相似片段比较明显。 4.7 同一性和相似性上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作

中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在一个序列中插入一个空位,使两个序列之间有更好的匹配:所谓延伸空位,是指在引入一个或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分数值是两个序列之间匹配残基的总分值与空位罚分的总和上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为1和0的分数矩阵(见表 6.1),即相同残基的分数值为1,不同残基的分数值为θ。这种矩阵通常称为稀疏矩阵,因为矩阵大多数单元的值为0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度而又不至于降低信噪比,是序列比对算法的核心相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 471突变数据矩阵突变数据矩阵( Mutation data matriⅸx,简称MD, Dayhoff等,1978)是基于单点可接受突变的概念,即 Point Accepted Mutation,简称PAM。1个PAM的进化距离表示在100个残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250相似性分数矩阵相当于在两个序列之间具有20%的残基匹配。在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机

中可以利用计算机程序实现上述序列比对的基本算法。然而，序列比对不仅需要考虑子序列之间的匹配，而且需要对整个序列进行比较。也就是说，必须考虑两个序列中所有残基的匹配。这就意味着，不可能使所有残基都能严格匹配。在这种情况下，比对过程中确定空位的过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹配数。我们知道，空位的引入，意味着两个序列之间残基的插入或删除。如果对引入空位不加限制，所得比对结果即使分值较高，也缺乏生物学依据。因此，必须有一种机制，对空位的引入加以限制。常用的方法就是空位罚分，即每插入一空位就在总分值中罚去一定分值，即加上一负分值，包括起始空位罚分和延伸空位罚分。所谓起始空位，是指序列比对时，在一个序列中插入一个空位，使两个序列之间有更好的匹配；所谓延伸空位，是指在引入一个或几个空位后，继续引入下一个连续的空位，使两个序列之间有更好的匹配。延伸空位罚分值可以与起始空位罚分值相同，也可以比起始空位罚分值小。因此，序列比对最终结果的分数值是两个序列之间匹配残基的总分值与空位罚分的总和。上述序列比对过程中，只考虑了残基的同一性，即两个序列之间完全相同的匹配残基数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵（见表 6.1），即相同残基的分数值为 1，不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵，因为矩阵大多数单元的值为 0。显然，这种单一的相似性分数矩阵具有很大局限性。改进分数矩阵的表征性能，找出那些潜在的具有生物学意义的最佳匹配，提高数据库搜索的灵敏度，而又不至于降低信噪比，是序列比对算法的核心。相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建，是基于远距离进化过程中观察到的残基替换率，并用不同的分数值表征不同残基之间相似性程度。恰当选择相似性分数矩阵，可以提高序列比对的敏感度，特别是两个序列之间完全相同的残基数比较少的情况下。必须说明，相似性分数矩阵有其固有的噪声，因为它们在对两个具有一定相似性的不同残基赋予某个相似性分值时的同时，也引进了比对过程的噪声。这就意味着随着微弱信号的增强，随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的问题，而只对两个常用的相似性分数矩阵作简单介绍，即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵突变数据矩阵（Mutation Data Matrix，简称 MD，Dayhoff 等，1978）是基于单点可接受突变的概念，即 Point Accepted Mutation，简称 PAM。1 个 PAM 的进化距离表示在 100 个残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩阵，可以通过对原始矩阵进行一定的数学处理获得。例如，PAM250 相似性分数矩阵相当于在两个序列之间具有 20%的残基匹配。在序列比对中，通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机

突变数据矩阵因此成为很多序列分析软件的缺省矩阵,因为它在20%的水平上反映出两个序列之间的相似性。按理说,使用与比对序列的实际进化距离更接近的相似性矩阵更为有效, 但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致先入为主的错误。因此,在实际进行序列比对时,应该选择各种不同的相似性分数矩阵进行多次比对,并对比对结果进行分析比较,才能得到比较理想的结果 472 BLOSUM矩阵突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数据矩阵在实际使用时存在着一定的局限性。为了克服上述弊病, Henikoff'夫妇( Henikof和 Heniko,1992)从蛋白质模块数据库 BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等于80%相同的序列组成的串可用于产生 BLOSUM80矩阵( BIOcks substitution matrix发音为 blossom):那些有62%或以上相同的串用于产生 BLOSUM62矩阵,依此类推。 473序列比对的统计检验序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参数可以得到不同的比对结果,例如空位罚分值大小。此外,序列长度差异和字母表复杂度也会比对结果产生影响。合理地调节参数,会减少空位数目,得到较好的结果,而放宽对空位罚分的限制,理论上可以对任意两个序列进行比对而得到某个结果。因此,序列比对的结果并不能作为两者之间一定存在同源关系的依据。常用序列比对程序通常给出一些统计值,用来表示结果的可信度。 BLAST程序中使用的统计值有概率p和期望值E。p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。期望值E描述的是搜索某一特定数据库时,随机出现的匹配序列数目。例如,E值为1可以解释为当前搜索中,由随机产生的相同分值的匹配的可能性为1。而E值为0则表明搜索结果不大可能是随机产生的

突变数据矩阵因此成为很多序列分析软件的缺省矩阵，因为它在 20%的水平上反映出两个序列之间的相似性。按理说，使用与比对序列的实际进化距离更接近的相似性矩阵更为有效，但在实际使用中却无法实现，因为这意味着需要事先知道两个序列之间的进化距离，而导致先入为主的错误。因此，在实际进行序列比对时，应该选择各种不同的相似性分数矩阵进行多次比对，并对比对结果进行分析比较，才能得到比较理想的结果。 4.7.2 BLOSUM 矩阵突变数据矩阵的产生基于相似性较高（通常为 85%以上）的序列比对，那些进化距离较远的矩阵（如 PAM250）是从初始模型中推算出来而不是直接计算得到的，其准确率受到一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性，因此突变数据矩阵在实际使用时存在着一定的局限性。为了克服上述弊病，Henikoff 夫妇（Henikoff 和 Henikoff，1992）从蛋白质模块数据库 BLOCKS 中找出一组替换矩阵，用于解决序列的远距离相关。在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比，产生了不同矩阵。由此，例如高于或等于 80%相同的序列组成的串可用于产生 BLOSUM80 矩阵（BlOcks SUbstitution Matrix 发音为 blossom）；那些有 62%或以上相同的串用于产生 BLOSUM62 矩阵，依此类推。 4.7.3 序列比对的统计检验序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参数可以得到不同的比对结果，例如空位罚分值大小。此外，序列长度差异和字母表复杂度也会比对结果产生影响。合理地调节参数，会减少空位数目，得到较好的结果，而放宽对空位罚分的限制，理论上可以对任意两个序列进行比对而得到某个结果。因此，序列比对的结果并不能作为两者之间一定存在同源关系的依据。常用序列比对程序通常给出一些统计值，用来表示结果的可信度。BLAST 程序中使用的统计值有概率 p 和期望值 E。p 值表示比对结果得到的分数值的可信度。一般说来，p 值越接近于零，则比对结果的可信度越大；相反，p 值越大，则比对结果来自随机匹配的可能性越大。期望值 E 描述的是搜索某一特定数据库时，随机出现的匹配序列数目。例如，E 值为 1 可以解释为当前搜索中，由随机产生的相同分值的匹配的可能性为 1。而 E 值为 0 则表明搜索结果不大可能是随机产生的

表63序列比对的点阵图方式若某一位置所对应的两个残基相同,则在该位置用“*”号表示。点阵图的最基本特征是有一些由噪音组成的随机点和具有信号特征的主对角线。其中主对角线由连续的点组成,它代表两条序列中具有相似性的区域。为清楚起见,表63中用Ⅹ 表示。点阵图为从噪声背景中提取信号提供了一个图形表示法。尤其是在对于数据库搜索的结果的解释方面。点阵图中两条完全相同的序列被表示成一条连续的对角线,如图66a)所示。为了能够在一张图中表示出两个较长序列的比较结果,必须提高点阵图的分辨率。因此,表63中的 Ⅹ被替换成了点,连续的点连接在一起构成线。点阵图的名称由此而来两条不完全相同却具有一定相似性的序列在点阵图上表示为一些间断的对角线。其中不相连的区域表示那些不匹配的区域,如图66(b)所示。那些相似性程度较低的序列所构成的点阵图具有较大的噪声。而一定长度的相似序列片段则在点阵图上以成组的、较短的对角线出现。它们平行于主对角线,其距离则反映了插入空位的多少以上,我们讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的打分规则而构建,这些打分规则规定了不同残基之间相似性程度的分值。例如,可以根据不同残基之间在进化、结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种情况下,由于点阵图不只是简单的稀疏矩阵,那些偏离主对角线的点也可能具有相当重要的作用,所以过滤掉噪音就变得十分重要了。常用的方法是引入滑动窗口算法作为平滑函数提高点阵图的信噪比 49局部相似性和整体相似性从上面的介绍中可以看出,序列比对是一个简单的数学模型,模型的参数可以加以调节不同的模型所反映的生物学性质不同。例如,可以根据分子间的结构、功能和进化等方面的相关性来进行构建。必须指出,比对的结果是没有正确和错误之分的,其区别是由于模型所反映的生物学性质的不同。总体来说,比对模型可以分为两类,一类是考察两个序列之间的整体相似性,称全局性比对:另一类则着眼于序列中的某些特殊片段,比较这些片段之间的相似性,即局部性比对

D * * S * * * * * * S * * * * * * A * * G * * * * * G * * * * * 表 6.3 序列比对的点阵图方式若某一位置所对应的两个残基相同，则在该位置用“*”号表示。点阵图的最基本特征是有一些由噪音组成的随机点和具有信号特征的主对角线。其中主对角线由连续的点组成，它代表两条序列中具有相似性的区域。为清楚起见，表 6.3 中用 X 表示。点阵图为从噪声背景中提取信号提供了一个图形表示法。尤其是在对于数据库搜索的结果的解释方面。点阵图中两条完全相同的序列被表示成一条连续的对角线，如图 6.6(a)所示。为了能够在一张图中表示出两个较长序列的比较结果，必须提高点阵图的分辨率。因此，表 6.3 中的 X 被替换成了点，连续的点连接在一起构成线。点阵图的名称由此而来。两条不完全相同却具有一定相似性的序列在点阵图上表示为一些间断的对角线。其中不相连的区域表示那些不匹配的区域，如图 6.6(b)所示。那些相似性程度较低的序列所构成的点阵图具有较大的噪声。而一定长度的相似序列片段则在点阵图上以成组的、较短的对角线出现。它们平行于主对角线，其距离则反映了插入空位的多少。以上，我们讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的打分规则而构建，这些打分规则规定了不同残基之间相似性程度的分值。例如，可以根据不同残基之间在进化、结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种情况下，由于点阵图不只是简单的稀疏矩阵，那些偏离主对角线的点也可能具有相当重要的作用，所以过滤掉噪音就变得十分重要了。常用的方法是引入滑动窗口算法作为平滑函数提高点阵图的信噪比。 4.9 局部相似性和整体相似性从上面的介绍中可以看出，序列比对是一个简单的数学模型，模型的参数可以加以调节。不同的模型所反映的生物学性质不同。例如，可以根据分子间的结构、功能和进化等方面的相关性来进行构建。必须指出，比对的结果是没有正确和错误之分的，其区别是由于模型所反映的生物学性质的不同。总体来说，比对模型可以分为两类，一类是考察两个序列之间的整体相似性，称全局性比对；另一类则着眼于序列中的某些特殊片段，比较这些片段之间的相似性，即局部性比对

区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同目前常用的 BLAST和 Fasta等数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中的功能位点,如酶的催化位点等。它们通常只有一个或几个残基,具有较高的保守性,并且不受序列中其它部分的插入和突变的影响。从这个意义上说,局部相似性搜索比整体相似性比对更加灵敏,也更具有生物学意义。需要指出的是,这并不能说明那些具有一定相似性的序列片段一定具有相同的三维结构 410整体比对算法在对上述基本概念有所了解后,我们开始讨论整体比对的 Needleman和 Wunsch算法 ( Needleman和 Wunsch,1970)。从本质上讲,这一算法和已经广为使用的点阵图方法类似整体比对方法中,两条蛋白质序列具有最多匹配残基定义为最佳匹配,其中允许进行必要的插入或缺失。为控制无限制的空位插入,我们引入罚分( penalty)的概念与点阵图类似,整体比对基于一个二维矩阵,并通过某种算法找出最佳匹配路径。矩阵的最基本形式是:将两序列中匹配残基所对应的单元的值置为1,不匹配的值置为0。然后对矩阵中的每个单元进行连续求和,即把能够到达该位置的所有单元中的最大值与该位置的值相加。若当前位置为第i行、第j列,那么能够达到它的单元为:(a)第计1行中的第j 个单元之后的所有单元;(b)第计1列中的第i个单元之后的所有单元。对矩阵的所有单元都重复这一操作,直到全部结束为止。这样,可以构建一条最大匹配路径,它由N末端具有最大值的单元格开始,按照取最大值的原则一直到C末端,即从序列的起始开始到最后一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下, 可以籍此来寻求最大比对。假如不允许空位插入,则只能找一条分值较低的路径。下面我们通过两条短序列“ ADLAVFALCDRYFQ”和“ ADLGRTQNCDRYYQ”的比对详细讨论这一算法。根据算法,首先构建一个二维矩阵,用来表示两个序列的匹配状况。第个序列沿水平方向,即X轴;第二个序列沿垂直方向,即Y轴(表64)。 A DLGAVFALCDRY F Q A100010010000000 D010000000010000 L001000001000000 G000100000000000

区分这两类相似性和这两种不同的比对方法，对于正确选择比对方法是十分重要的。应该指出，在实际应用中，用整体比对方法企图找出只有局部相似性的两个序列之间的关系，显然是徒劳的；而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。目前常用的 BLAST 和 FastA 等数据库搜索程序均采用局部相似性比对的方法，具有较快的运行速度，采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中的功能位点，如酶的催化位点等。它们通常只有一个或几个残基，具有较高的保守性，并且不受序列中其它部分的插入和突变的影响。从这个意义上说，局部相似性搜索比整体相似性比对更加灵敏，也更具有生物学意义。需要指出的是，这并不能说明那些具有一定相似性的序列片段一定具有相同的三维结构。 4.10 整体比对算法在对上述基本概念有所了解后，我们开始讨论整体比对的 Needleman 和 Wunsch 算法（Needleman 和 Wunsch，1970）。从本质上讲，这一算法和已经广为使用的点阵图方法类似。整体比对方法中，两条蛋白质序列具有最多匹配残基定义为最佳匹配，其中允许进行必要的插入或缺失。为控制无限制的空位插入，我们引入罚分（penalty）的概念。与点阵图类似，整体比对基于一个二维矩阵，并通过某种算法找出最佳匹配路径。矩阵的最基本形式是：将两序列中匹配残基所对应的单元的值置为 1，不匹配的值置为 0。然后对矩阵中的每个单元进行连续求和，即把能够到达该位置的所有单元中的最大值与该位置的值相加。若当前位置为第 i 行、第 j 列，那么能够达到它的单元为：（a）第 i+1 行中的第 j 个单元之后的所有单元；（b）第 j+1 列中的第 i 个单元之后的所有单元。对矩阵的所有单元都重复这一操作，直到全部结束为止。这样，可以构建一条最大匹配路径，它由 N 末端具有最大值的单元格开始，按照取最大值的原则一直到 C 末端，即从序列的起始开始到最后一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下，可以籍此来寻求最大比对。假如不允许空位插入，则只能找一条分值较低的路径。下面我们通过两条短序列“ADLAVFALCDRYFQ”和“ADLGRTQNCDRYYQ”的比对详细讨论这一算法。根据算法，首先构建一个二维矩阵，用来表示两个序列的匹配状况。第一个序列沿水平方向，即 X 轴；第二个序列沿垂直方向，即 Y 轴（表 6.4）。 A D L G A V F A L C D R Y F Q A 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 D 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 L 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 G 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0

《生物信息学》课程教学资源（电子讲义）第四章 双序列比对

《生物信息学》课程教学资源（电子讲义）第四章双序列比对