正在加载图片...
中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配:所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为1和0的分数矩阵(见表 6.1),即相同残基的分数值为1,不同残基的分数值为θ。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度 而又不至于降低信噪比,是序列比对算法的核心 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 471突变数据矩阵 突变数据矩阵( Mutation data matriⅸx,简称MD, Dayhoff等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称PAM。1个PAM的进化距离表示在100个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250相似性分数矩阵相当于 在两个序列之间具有20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有