正在加载图片...
-链和肌红蛋白最佳比对只有23个位点是一致的,分散在多肽链中央区域。但是,相 近的比对有22个一致位点,而且这些位,点集中于蛋白质的N-端。如果在比对过程中引入缺 口,就能将上述两种比对的大多数一致位点都囊括进来(图66)。在比对过程中需要添加这 种缺口以补偿基因进化过程中出现的插入或缺失。 Hemoglobin VLSPADK TNVKAAWGKVGAHAGE YGAEALERMFL S FPTTKTYFP HF- Gap Myoglobin L SHGSAQVKGHGKKVADALTNAVAHVDDMPNA L SALSDLHAHKL RVDPVNKK L EMKASEDLKKHGATVLTALGGI LKKKGHHEAE I KPLAQSHATKHK I PVKYLE F HOLLVTLAAHDPADEARRASLDKFLASVSTVLTSK GADAQGAMN LFRKDMA$NU冰ELGFQG 2007 W.H.Freeman and Company 图6.6添加缺口的比对。人血红蛋白0-链和肌红蛋白在加入缺口后的序列比对。 但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为 因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评 估各种比对方素,利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加10 分,一个缺口(无论缺口大小)扣25分。图6.6的比对方案得355分(38个一致位点和一个 缺口,38x10-1x25=355)。这样,这两个蛋白质之间氨基酸一致性就达到25.9%(两 个蛋白质平均长度是147氨基酸残基,有38个一致位,点)。下面的问题是,这样的一致性是 否属于明显类似? 用重排的方法估计比对的统计学意义 图65展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。 如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling), 然后将重排所得蛋白序列与目标序列比对(图67)。重复这一过程,构建出各种重排蛋白的 得分。 采用这种策略,肌红蛋白和血红蛋白-链之间权威比对就凸现出来(图68)。权咸比对 的数值远高于随机重排蛋白的平均值。随机重排10次,才出现一次这种比对值。因此我 们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖 先,属于同源物。 THISISTHEAUTHENTICSEQUENCE Shuffling SNUCSNSEATEEITUHEQIHHTTCEI m 图6.7重排产生的一个新序列。链和肌红蛋白最佳比对只有 23 个位点是一致的,分散在多肽链中央区域。但是,相 近的比对有 22 个一致位点,而且这些位点集中于蛋白质的 N-端。如果在比对过程中引入缺 口,就能将上述两种比对的大多数一致位点都囊括进来(图 6.6)。在比对过程中需要添加这 种缺口以补偿基因进化过程中出现的插入或缺失。 图 6.6 添加缺口的比对。人血红蛋白链和肌红蛋白在加入缺口后的序列比对。 但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为 因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评 估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加 10 分,一个缺口(无论缺口大小)扣 25 分。图 6.6 的比对方案得 355 分(38 个一致位点和一个 缺口, 38 x 10 - 1 x 25 = 355)。这样,这两个蛋白质之间氨基酸一致性就达到 25.9% (两 个蛋白质平均长度是 147 氨基酸残基,有 38 个一致位点)。下面的问题是,这样的一致性是 否属于明显类似? 用重排的方法估计比对的统计学意义 图 6.5 展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。 如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling), 然后将重排所得蛋白序列与目标序列比对(图 6.7)。重复这一过程,构建出各种重排蛋白的 得分。 采用这种策略,肌红蛋白和血红蛋白链之间权威比对就凸现出来(图 6.8)。权威比对 的数值远高于随机重排蛋白的平均值。随机重排 10 20次,才出现一次这种比对值。因此我 们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖 先,属于同源物。 图 6.7 重排产生的一个新序列
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有