正在加载图片...
区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指 出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然 是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相 同 目前常用的 BLAST和 Fasta等数据库搜索程序均采用局部相似性比对的方法,具有较 快的运行速度,采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中 的功能位点,如酶的催化位点等。它们通常只有一个或几个残基,具有较高的保守性,并且 不受序列中其它部分的插入和突变的影响。从这个意义上说,局部相似性搜索比整体相似性 比对更加灵敏,也更具有生物学意义。需要指出的是,这并不能说明那些具有一定相似性的 序列片段一定具有相同的三维结构 410整体比对算法 在对上述基本概念有所了解后,我们开始讨论整体比对的 Needleman和 Wunsch算法 ( Needleman和 Wunsch,1970)。从本质上讲,这一算法和已经广为使用的点阵图方法类似 整体比对方法中,两条蛋白质序列具有最多匹配残基定义为最佳匹配,其中允许进行必要的 插入或缺失。为控制无限制的空位插入,我们引入罚分( penalty)的概念 与点阵图类似,整体比对基于一个二维矩阵,并通过某种算法找出最佳匹配路径。矩阵 的最基本形式是:将两序列中匹配残基所对应的单元的值置为1,不匹配的值置为0。然后 对矩阵中的每个单元进行连续求和,即把能够到达该位置的所有单元中的最大值与该位置的 值相加。若当前位置为第i行、第j列,那么能够达到它的单元为:(a)第计1行中的第j 个单元之后的所有单元;(b)第计1列中的第i个单元之后的所有单元。对矩阵的所有单元 都重复这一操作,直到全部结束为止。这样,可以构建一条最大匹配路径,它由N末端具 有最大值的单元格开始,按照取最大值的原则一直到C末端,即从序列的起始开始到最后 一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下, 可以籍此来寻求最大比对。假如不允许空位插入,则只能找一条分值较低的路径。 下面我们通过两条短序列“ ADLAVFALCDRYFQ”和“ ADLGRTQNCDRYYQ”的比对详 细讨论这一算法。根据算法,首先构建一个二维矩阵,用来表示两个序列的匹配状况。第 个序列沿水平方向,即X轴;第二个序列沿垂直方向,即Y轴(表64)。 A DLGAVFALCDRY F Q A100010010000000 D010000000010000 L001000001000000 G000100000000000区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指 出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然 是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相 同。 目前常用的 BLAST 和 FastA 等数据库搜索程序均采用局部相似性比对的方法,具有较 快的运行速度,采用某些优化算法可进一步提高速度。局部相似性搜索主要用于找出序列中 的功能位点,如酶的催化位点等。它们通常只有一个或几个残基,具有较高的保守性,并且 不受序列中其它部分的插入和突变的影响。从这个意义上说,局部相似性搜索比整体相似性 比对更加灵敏,也更具有生物学意义。需要指出的是,这并不能说明那些具有一定相似性的 序列片段一定具有相同的三维结构。 4.10 整体比对算法 在对上述基本概念有所了解后,我们开始讨论整体比对的 Needleman 和 Wunsch 算法 (Needleman 和 Wunsch,1970)。从本质上讲,这一算法和已经广为使用的点阵图方法类似。 整体比对方法中,两条蛋白质序列具有最多匹配残基定义为最佳匹配,其中允许进行必要的 插入或缺失。为控制无限制的空位插入,我们引入罚分(penalty)的概念。 与点阵图类似,整体比对基于一个二维矩阵,并通过某种算法找出最佳匹配路径。矩阵 的最基本形式是:将两序列中匹配残基所对应的单元的值置为 1,不匹配的值置为 0。然后 对矩阵中的每个单元进行连续求和,即把能够到达该位置的所有单元中的最大值与该位置的 值相加。若当前位置为第 i 行、第 j 列,那么能够达到它的单元为:(a)第 i+1 行中的第 j 个单元之后的所有单元;(b)第 j+1 列中的第 i 个单元之后的所有单元。对矩阵的所有单元 都重复这一操作,直到全部结束为止。这样,可以构建一条最大匹配路径,它由 N 末端具 有最大值的单元格开始,按照取最大值的原则一直到 C 末端,即从序列的起始开始到最后 一个残基为止。不在主对角线上的单元格表示需要在此插入空位。在允许空位插入的情况下, 可以籍此来寻求最大比对。假如不允许空位插入,则只能找一条分值较低的路径。 下面我们通过两条短序列“ADLAVFALCDRYFQ”和“ADLGRTQNCDRYYQ”的比对详 细讨论这一算法。根据算法,首先构建一个二维矩阵,用来表示两个序列的匹配状况。第一 个序列沿水平方向,即 X 轴;第二个序列沿垂直方向,即 Y 轴(表 6.4)。 A D L G A V F A L C D R Y F Q A 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 D 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 L 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 G 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有