《生物化学 Biochemistry》课程教学资源（课本材料）第06章生物信息学和进化的研究方法.doc_大学文库

6.1同源物来自同一祖先生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。来自同一祖先的两个物体就是同源关系。同源(homologus)分子或同源物 (homologs)可以分为两类（图6.3）。侧向同源物(paralogs)指同种生物的同源物。直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源性，那么这个新近测序的蛋白质也可能具有这样的生物功能。如何确定人类两种蛋白质具有侧向同源？如何确定人类蛋白和酵母蛋白具有直向同源？我们在62节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性。当然，三维结构比较更能揭示生物分子的同源性。 Bovine ribonudlease (digestive enzyme) Orthologs HUMAN BEING Paralogs Human ribonuclease Angiogenin (digestive enzyme) (stimulates blood-vessel growth) 图63两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)。而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。 6.2序列比对的统计分析检测同源性(omol0gy) 两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先，因此有同样的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对，但是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有20种，而构建核酸的单体只有4种。为了解释蛋白质比较的方法，我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白，而血红蛋白是血液的载氧蛋白（第7章）。这两种蛋白质都有血红素辅基（一种有铁的有机分子，能结合氧)。人血红蛋白有4个多肽链，每个多肽链结合一个血红素辅基。这四个多肽链分别是两个完全一样的-链和两个完全一致的B-链。此处我们仅考察-链。研究人血红蛋白-链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性（图6.4）。为了确定这两个序列之间的类似性，建立了序列比对方法

6.1 同源物来自同一祖先生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。来自同一祖先的两个物体就是同源关系。同源（homologus）分子或同源物（homologs）可以分为两类（图 6.3）。侧向同源物(paralogs)指同种生物的同源物。直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源性，那么这个新近测序的蛋白质也可能具有这样的生物功能。如何确定人类两种蛋白质具有侧向同源？如何确定人类蛋白和酵母蛋白具有直向同源？我们在 6.2 节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性。当然，三维结构比较更能揭示生物分子的同源性。图 6.3 两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)。而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白（paralog)。 6.2 序列比对的统计分析检测同源性(homology) 两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先，因此有同样的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对，但是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有 20 种，而构建核酸的单体只有 4 种。为了解释蛋白质比较的方法，我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白，而血红蛋白是血液的载氧蛋白（第 7 章）。这两种蛋白质都有血红素辅基（一种有铁的有机分子，能结合氧）。人血红蛋白有 4 个多肽链，每个多肽链结合一个血红素辅基。这四个多肽链分别是两个完全一样的链和两个完全一致的链。此处我们仅考察链。研究人血红蛋白链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性（图 6.4）。为了确定这两个序列之间的类似性，建立了序列比对方法

-链和肌红蛋白最佳比对只有23个位点是一致的，分散在多肽链中央区域。但是，相近的比对有22个一致位点，而且这些位，点集中于蛋白质的N-端。如果在比对过程中引入缺口，就能将上述两种比对的大多数一致位点都囊括进来（图66）。在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。 Hemoglobin VLSPADK TNVKAAWGKVGAHAGE YGAEALERMFL S FPTTKTYFP HF- Gap Myoglobin L SHGSAQVKGHGKKVADALTNAVAHVDDMPNA L SALSDLHAHKL RVDPVNKK L EMKASEDLKKHGATVLTALGGI LKKKGHHEAE I KPLAQSHATKHK I PVKYLE F HOLLVTLAAHDPADEARRASLDKFLASVSTVLTSK GADAQGAMN LFRKDMA$NU冰ELGFQG 2007 W.H.Freeman and Company 图6.6添加缺口的比对。人血红蛋白0-链和肌红蛋白在加入缺口后的序列比对。但是用缺口的办法增加了序列比对的复杂性，因为序列比对时所选择的缺口大小有人为因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评估各种比对方素，利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加10 分，一个缺口（无论缺口大小)扣25分。图6.6的比对方案得355分(38个一致位点和一个缺口，38x10-1x25=355)。这样，这两个蛋白质之间氨基酸一致性就达到25.9%（两个蛋白质平均长度是147氨基酸残基，有38个一致位，点)。下面的问题是，这样的一致性是否属于明显类似？用重排的方法估计比对的统计学意义图65展示的序列类似性似乎是显著的，但是不能排除偶然出现了这些一致性的可能。如何评估这些偶然性？采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling), 然后将重排所得蛋白序列与目标序列比对（图67）。重复这一过程，构建出各种重排蛋白的得分。采用这种策略，肌红蛋白和血红蛋白-链之间权威比对就凸现出来（图68）。权咸比对的数值远高于随机重排蛋白的平均值。随机重排10次，才出现一次这种比对值。因此我们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖先，属于同源物。 THISISTHEAUTHENTICSEQUENCE Shuffling SNUCSNSEATEEITUHEQIHHTTCEI m 图6.7重排产生的一个新序列

链和肌红蛋白最佳比对只有 23 个位点是一致的，分散在多肽链中央区域。但是，相近的比对有 22 个一致位点，而且这些位点集中于蛋白质的 N-端。如果在比对过程中引入缺口，就能将上述两种比对的大多数一致位点都囊括进来（图 6.6）。在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。图 6.6 添加缺口的比对。人血红蛋白链和肌红蛋白在加入缺口后的序列比对。但是用缺口的办法增加了序列比对的复杂性，因为序列比对时所选择的缺口大小有人为因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评估各种比对方案，利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加 10 分，一个缺口（无论缺口大小）扣 25 分。图 6.6 的比对方案得 355 分(38 个一致位点和一个缺口， 38 x 10 - 1 x 25 = 355）。这样，这两个蛋白质之间氨基酸一致性就达到 25.9% （两个蛋白质平均长度是 147 氨基酸残基，有 38 个一致位点）。下面的问题是，这样的一致性是否属于明显类似？用重排的方法估计比对的统计学意义图 6.5 展示的序列类似性似乎是显著的，但是不能排除偶然出现了这些一致性的可能。如何评估这些偶然性？采用的策略是将某一蛋白质的氨基酸序列进行随机重排（shuffling)，然后将重排所得蛋白序列与目标序列比对（图 6.7）。重复这一过程，构建出各种重排蛋白的得分。采用这种策略，肌红蛋白和血红蛋白链之间权威比对就凸现出来（图 6.8）。权威比对的数值远高于随机重排蛋白的平均值。随机重排 10 20次，才出现一次这种比对值。因此我们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖先，属于同源物。图 6.7 重排产生的一个新序列

Hemoglobin VLSPADKTNVKAAWGKVGAHAGE YGAEALERMFL S FPTTKTYFP HF----- Myoglobin GLSEGEWQLVLNVGKVEAD I PGHGQEVLIRLFKGHPETLEKFD KFKHLKS DLSHGSAQVKGHGKKVADALTNAVAHVDDMPNAL SALSDLHAHKL RVDPV EDEMKASEDLKKHGATVLTALGGI LKKKGHHEAE I KPLAQSHATKHK I PVK NFKLLSHOLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR YLEFISECI I QVLQSKHPGDFGADAQGAMNKALEL FRKDMASNYKELG FQG 2007 W.H.Freeman and Company 图610考虑保守替代的序列比对。0-链和肌红蛋白序列比对，保守替代用黄色涂出，相同氨基酸用桔子颜色涂出（在框内）。这种打分系统在比对那些序列缺乏明显相关性的蛋白质方面，其灵敏度比仅仅依靠一致性位，点打分系统高。例如豆血红蛋白(leghemoglobin)是一些植物根部的氧结合蛋白，其氨基酸序列与人血红蛋白氨基酸序列进行比对。重复重排和打分的分布值见图6.11。基于一致性进行的打分，用重排打分评价是20次重排就有一次机会产生的得分与一致性打分系统得分相同，因此是一种偶然性类似。相反用替代矩阵打分系统打分，用重排打分评价是300次才有一次机会得分与替代矩阵打分系统相同的得分。因此用矩阵打分系统得出的蛋白进化关联性结论更可靠（图6.12）。基于序列分析的经验得到了一些简单的评估原则。对于长度超过100氨基酸的两个蛋白质，序列一致性超过25%就不可能是偶然的，很可能是同源物。相反，序列一致性低于15% 的两个蛋白质仅仅依靠匹配比较显示的类似性没有显著的统计意义。而序列一致性在15%~ 25%之间的蛋白质，需要进一步分析以确定比对的统计意义。必须指出，序列相似性在统计上不明显的蛋白质也有可能是同源物。从同一祖先进化而来的很多蛋白质差异化程度高至序列比对无法看出它们的同源性。这类同源蛋白的三维结构相似。 3 25 20 25 15 5 10 aqwnN 5 5 0 150 200 250 O 10 20 (A)Alignment score(identities only) (B) Alignment score(Blosum 62) Figure 6-11 Biochemistry,Sixth Edition 2007 W.H.Freeman and Company 图6.1山1一致性比对和Bl0sum62矩阵比对。重复重排打分对豆血红蛋白和人肌红蛋白序列比对进行评估，简单一致性比对(A)和Blosum62矩阵打分比对(B)。红色显示真正序列的比对，说明Blosum矩阵打分的统计意义明显

BLA8TP2.2,10【0ct-19-2004] Identifier of query Query=gi12517444gbAAG58041.1AE005521 9 ribosephosphate sequence isomerase, constitutive [Escherichia coli 0157:H7] (219 letters) Database:All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF excluding environmental samples 2,205,431 sequences;747,548,157 total letters Distribution of 268 Blast Hits on the Query Sequence Score E ldentifier of Sequences producing significant alignments: (bits)value homologous sequence gi42943 emb|CAA47309.1 unnamed protein product [E.coli] 427 e-118 bond in search gi12517444gbAAG58041.1 ribosephosphate isomerase,const... 927 e-118 Name [species] of homologous gi33126317gbAAK95569.1 ribose 5-phosphate isomerase [H.sapiens]117 2e-25 protein gi29897136gbAAP10413.1 Phosphoglycerate mutase [B.cereus] 370.35 gi|33126317|gb|AAK95569.1| ribose 5-phosphate isomerase [Homo sapiens] Length 237 Amino acid Score 117 bits (294),Expect 2e-25 Sequence 1dent1t1es=82/224(36告)，Positives=118/224(52告)，Gaps=15/224(6者) being queried Query:4 DELKKAVGWAALQ-YVQPGTIVGVGTGSTAAHPIDALGTMKGQIE---GAVSSSDASTEK 59 Sequence of +E KK G AA+++V+ ++G+G+GST H++ Q ++S++ homologous Sbict:5 EEAKKLAGRAAVENHVRNNOVLGIGSGSTIVHAVORIAERVKOENLNLVCIPTSFQAROL 64 protein from Homo sapiens Query:60 LKSLGIHVFDLNEVDSLGIYVDGADEINGHMQMIKGGGAALTREKIIASVAEKFICIADA 119 G++DL+ ++DGADE++ +IKGGG LT+EKI+AA +FI IAD Plus sign Sbict:65 ILQYGLTLSDLDRHPEIDLAIDGADEVDADLNLIKGGGGCLTQEKIVAGYASRFIVIADF 124 "positive,"a frequent Query:120 SKOVDILG---KFPLPVEVIPMARSAVARQL-VKLGGRPEYROG------VVTDNGNVIL 169 substitution IG +P+EVIPMA V+R+K GG E R VVTDNGN IL Sbjct:125 RKDSKNLGDQWHKGIPIEVIPMAYVPVSRAVSQKFGGVVELRMAVNKAGPVVTDNGNFIL 184 Letter= Query:170 DVHGMEILDPIAMENAINAIPGVVTVGLFANRGADVALIGTPDG 213 identity +AI IPGVV GLE N A+ G DG i.e the two Sbjct:185 DWKFDRVHKWSEVNTAIKMIPGVVDTGLFINM-AERVYFGMODG 227 sequences Figure 6-13 Biochemistry,Sixth Edition 2007 W.H.Freeman and Company 图6.13 BLAST搜寻的结果。用Ecoli核糖5-磷酸异构酶（也称为磷酸戊糖异构酶）的序列 BLAST搜寻非冗余序列(n)数据库的部分结果。其中有268个序列是人类同源蛋白的垂直同源物。这些序列的比对用黄色标出。E数据（用红色标出）显示偶然出现同一水平类似性的几率是2x1025。由于这个数据远远低于1，因此这种序列比对具有显著的统计意义。 6.3三维结构比较有助于进化关系研究蛋白质序列比较是了解蛋白质功能和亲缘关系的有力工具。但是，生物分子的功能更取决于它的三维结构。只有功能才能反映序列变异的效果，而功能是由分子的空间结构决定的。因此，为了深入了解蛋白质的进化关系，我们必须考虑蛋白质的三维结构，尤其是与三维结构相关的氨基酸序列。第3章我们介绍了测定蛋白质结构的方法

《生物化学 Biochemistry》课程教学资源（课本材料）第06章 生物信息学和进化的研究方法

《生物化学 Biochemistry》课程教学资源（课本材料）第06章生物信息学和进化的研究方法