《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测.pdf_大学文库

第九章蛋白质序列分析与结构预测种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?我们不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。20世纪60年代后期, Anfinsen首先发现去折叠蛋白或者说变性( denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构( native structure)对于蛋白质行使生物功能具有重要作用,大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。自从 Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。本章主要着重介绍蛋白质二级结构及空间结构预测的方法。 91引言基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C, G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据三联密码规则翻译成20字符的蛋白质氨基酸序列

第九章蛋白质序列分析与结构预测一种生物体的基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前，蛋白质序列数据库的数据积累的速度非常快，但是，已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是，通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高。因此，实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面，随着 DNA 测序技术的发展，人类基因组及更多的模式生物基因组已经或将要被完全测序，DNA 序列数量将会急增，而由于 DNA 序列分析技术和基因识别方法的进步，我们可以从 DNA 推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量（如蛋白质结构数据库 PDB 中的数据）的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度，或者减小两者的差距。那么如何缩小这种差距呢？我们不能完全依赖现有的结构测定技术，需要发展理论分析方法，这对蛋白质结构预测提出了极大的挑战。20 世纪 60 年代后期，Anfinsen 首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构，这种天然结构(native structure)对于蛋白质行使生物功能具有重要作用，大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。自从 Anfinsen 提出蛋白质折叠的信息隐含在蛋白质的一级结构中，科学家们对蛋白质结构的预测进行了大量的研究，分子生物学家将有可能直接运用适当的算法，从氨基酸序列出发，预测蛋白质的结构。本章主要着重介绍蛋白质二级结构及空间结构预测的方法。 9.1 引言基因是生命的蓝图，蛋白质是生命的机器。来自于四种字符字母表（A，T（U），C， G）的核酸序列中蕴藏着生命的信息，而蛋白质则执行着生物体内各种重要的工作，如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来四字符的 DNA 序列，根据三联密码规则翻译成 20 字符的蛋白质氨基酸序列

生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢? 从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此蛋白质结构预测是可能的。蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法( Ab initio 通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(lkca/mol数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是个问题。另一类蛋白质结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数

生物信息学的一个基本观点是：分子的结构决定分子的性质和分子的功能。因此，生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是，蛋白质的空间结构又是由什么决定的呢？当一个蛋白质的空间结构被破坏以后，或者蛋白质解折叠后，可以恢复其自然的折叠结构。大量的实验结果证明：蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境，但是，决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而，这种编码是否能被破译呢？或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢？从数学上讲，蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子，而大蛋白质（如载脂蛋白）的氨基酸个数超过 4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长，是天文数字。然而幸运的是，自然界实际存在的蛋白质是有限的，并且存在着大量的同源序列，可能的结构类型也不多，序列到结构的关系有一定的规律可循。因此，蛋白质结构预测是可能的。蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法（Ab initio），通过理论计算（如分子力学、分子动力学计算）进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说，我们可以根据物理、化学原理，通过计算来进行结构预测。但是在实际中，这种方法往往不合适。主要有几个原因，一是自然的蛋白质结构和未折叠的蛋白质结构，两者之间的能量差非常小（1kcal/mol 数量级），二是蛋白质可能的构象空间庞大，针对蛋白质折叠的计算量非常大。另外，计算模型中力场参数的不准确性也是一个问题。另一类蛋白质结构预测的方法是统计方法，该类方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的，也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测，例如，根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质（如蛋白质结构数

据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,可以发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元 (如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说, 具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式, 这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测10~30%蛋白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这项任务的技术称为“线索( THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模方法来建立蛋白质的结构模型

据库 PDB、蛋白质二级结构数据库 DSSP 中的蛋白质）进行统计分析，可以发现各种氨基酸形成不同二级结构的倾向，从而形成一系列关于二级结构预测的规则。与经验性方法相似的另一种办法是结构规律提取方法，这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则，指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法，如通过视觉观察的方法，基于统计分析和序列多重比对的方法，利用人工神经网络提取规律的方法。同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元（如锌指结构、螺旋-转角-螺旋结构、DNA 结合区域等）。其原理基于下述事实：每一个自然蛋白质具有一个特定的结构，但许多不同的序列会采用同一个基本的折叠，也就是说，具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质，如果它们的序列具有 25∼30%的等同部分或者更多，则可以假设这两个蛋白质折叠成相似的空间结构。这样，如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性，那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似，则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面，预测结果最可靠的方法是同源模型化方法。蛋白质的同源性比较往往是借助于序列比对而进行的，通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面，通过序列比对可以发现序列保守模式或突变模式，这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测 10∼30%蛋白质的结构。然而，许多具有相似结构的蛋白质是远程同源的，它们的等同序列不到 25%。也就是说，具有相似空间结构的蛋白质序列等同程度可能小于 25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库，并且搜索条件为序列等同程度小于 25%的话，那么将会得到大量不相关的蛋白质。因此，搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务，处理这项任务的技术称为“线索（THREADING）技术”。对于一个未知结构的蛋白质，仅当我们找不到等同序列大于 25%的已知结构的同源蛋白质时，才通过线索技术寻找已知结构的远程同源蛋白质，进而预测其结构。找到一个远程同源蛋白质后，就可以利用远程同源建模方法来建立蛋白质的结构模型

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代, 第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息:(2)基于物理化学性质:(3)基于序列模式:(4)基于多层神经网络;(5) 基于图论:(5)基于多元统计;(6)基于机器学习的专家规则:(7)最邻近算法。第代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息, 最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法 PHDsec。 PHDsec利用通过多重序列比对得到的进化信息作为神经网络

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代，第一代是基于单个氨基酸残基统计分析，从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析，使用大量的数据作为统计基础，统计的对象不再是单个氨基酸残基，而是氨基酸片段，片段的长度通常为 11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时，以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类：（1）基于统计信息；（2）基于物理化学性质；（3）基于序列模式；（4）基于多层神经网络；（5）基于图论；（5）基于多元统计；（6）基于机器学习的专家规则；（7）最邻近算法。第一代和第二代预测方法有共同的缺陷，它们对三态预测的准确率都低于 70%，而对 β 折叠预测的准确率仅为 28∼48%，其主要原因是这些方法在进行二级结构预测时只利用局部信息，最多只用局部的 20 个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明，二级结构的形成并非完全由局域的序列片段决定，长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响，尤其是 β 折叠。从理论上来说，局部信息仅包含二级结构信息的 65%左右，因此，可以想象，只用局部信息的二级结构预测方法，其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息，使二级结构预测的准确程度有了比较大的提高，特别是对 β 折叠的预测准确率有较大的提高，预测结果与实验观察趋于一致。一般 75%的氨基酸残基可以被置换而不改变蛋白质的结构，然而，有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论，但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化，不可能变化的部分是进化保守区域。可变部分的变化不改变结构，而不可变部分的变化则改变蛋白质的结构，由此失去蛋白质原有的功能，因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样，从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息，得到蛋白质家族中的特定残基替换模式，此外，通过序列的比对也可以得到长程信息。目前，许多二级结构预测的算法是基于序列比对的，通过序列比对可以计算出目标序列（待预测其二级结构的序列）中每个氨基酸的保守程度。对于二级结构三态（α，β，none）预测准确率首先达到 70%的方法是基于统计的神经网络方法 PHDsec。PHDsec 利用通过多重序列比对得到的进化信息作为神经网络

的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75% 各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竞使用哪一种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础。例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。 922Chou- Fasman方法 Chou- Fasman方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou和 Fasman 在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,例如Gu主要出现在α 螺旋中,Asp和Gly主要分布在转角中,Pro也常出现在转角中,但是绝不会出现在α螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Aa(A-GluE-eu(LMet(M 倾向于形成α螺旋,而肽链Po(P)-Gly(G)-Tyr(Y)serS则不会形成α螺旋一个氨基酸残基的二级结构倾向性因子定义为 =(=aB) (7-1) 式中下标i表示二级结构态,如α螺旋、β折叠、转角、无规卷曲等;T是所有被统计残基处于二级结构态的比例;A是第A种残基处于结构态i的比例;P大于1.0表示该残基倾向于形成二级结构,小于1.0则表示倾向于形成其它二级结构

的输入，另外采用了一个全局的描述子，即所有氨基酸组成（20 种氨基酸中每个所占的比例）作为蛋白质序列的全局信息。这类算法预测的准确率能达到 70％至 75％。各种方法预测的准确率随蛋白质类型的不同而变化。例如，一种预测方法在某些情况下预测的准确率能够达到 90%，而在最差的情况下仅达到 50%，甚至更低。在实际应用中究竟使用哪一种方法，还需根据具体的情况。虽然二级结构预测的准确性有待提高，其预测结果仍然能提供许多结构信息，尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析，再结合实验数据，往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如，二级结构预测是内部折叠、内部残基距离预测的基础。更进一步，二级结构预测可以作为其它工作的基础。例如，用于推测蛋白质的功能，预测蛋白质的结合位点等。 9.2.2 Chou-Fasman 方法 Chou-Fasman 方法是一种基于单个氨基酸残基统计的经验参数方法，由 Chou 和 Fasman 在 20 世纪 70 年代提出来。通过统计分析，获得每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的，例如 Glu 主要出现在 α 螺旋中，Asp 和 Gly 主要分布在转角中，Pro 也常出现在转角中，但是绝不会出现在 α 螺旋中。因此，可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外，不同的多肽片段有形成不同二级结构的倾向。例如：肽链 Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成 α 螺旋，而肽链 Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成 α 螺旋。一个氨基酸残基的二级结构倾向性因子定义为式中下标i表示二级结构态，如α螺旋、β折叠、转角、无规卷曲等；Ti是所有被统计残基处于二级结构态i的比例；Ai是第A种残基处于结构态i 的比例；Pi大于 1.0 表示该残基倾向于形成二级结构i，小于 1.0 则表示倾向于形成其它二级结构

通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在 Chou-Fasman方法中,这几个因子是Pa、PB和P,它们分别表示相应的残基形成a螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f计+2) 利(计+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率, 例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的几率不足4%。表7.1中显示了 Chou-Fasman预测方法中所用到的各种参数,其中参数值Pa、P和P是分别在原有相应倾向性因子的基础上乘以100而得到的。根据Pa和PB的大小,可将20种氨基酸残基分类,如谷氨酸、丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其它的统计经验,如,脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。表7120种常见氨基酸的 Chou-Fasman参数氨基酸 f1)f(计+1)f(计+2)f(+3) 丙氨酸(A) 0.060.0760.0350.058 精氨酸(R 0.0700.1060.0990.085 天冬酰胺(N)67891560.1610.0830.910091 天冬氨酸(D)10154146 0.1470.1100.1790.081 半胱氨酸(C)70119 19 0.1490.0500.1170.128 谷氨酸(E) 37 74 0.0560.06000770.064 谷氨酰胺(Q) 1098 0.0740.0980.0370.098 甘氨酸(G) 75 56 0.1020.085 1900.152 组氨酸(H) 10087 0.1400.04 0.0930.05 异亮氨酸(I)1086d 0.04300340.0130.056 亮氨酸(L) 121 130 0.0610.0250.0360.070 赖氨酸(K 11474 0.0550.1150.0720.095 甲硫氨酸(M)14510560 0.0680.0820.0140.055 苯丙氨酸(F)11313860 0.0590.0410.0650.065 脯氨酸(P) 0.1020.3010.0340.068 丝氨酸(S) 75 143 0.1200.1390.1250.10 苏氨酸(T) 311996 0.0860.1080.0650.079 色氨酸(W) 0.07700130.0640.167 氨酸(Y) 147 114 0.0820.0650.1140.125 氨酸(V)106国7500.06200480.0280053 在统计得出氨基酸残基倾向性因子的基础上,Chou和 Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构

通过对大量已知结构的蛋白质进行统计，为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中，这几个因子是Pα、Pβ和Pt ，它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外，每个氨基酸残基同时也有四个转角参数，f(i)、f(i+1)、f(i+2) 和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率，例如，脯氨酸约有 30%出现在转角的第二位，然而出现在第三位的几率不足 4%。表 7.1 中显示了Chou-Fasman预测方法中所用到的各种参数，其中参数值Pα、Pβ和Pt是分别在原有相应倾向性因子的基础上乘以 100 而得到的。根据Pα和Pβ的大小，可将 20 种氨基酸残基分类，如谷氨酸、丙氨酸是最强的螺旋形成残基，而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外，还有一些其它的统计经验，如，脯氨酸和甘氨酸最倾向于中断螺旋，而谷氨酸则通常倾向中断折叠。表 7.1 20 种常见氨基酸的 Chou-Fasman 参数。氨基酸 Pα Pβ Pt f(i) f(i+1) f(i+2) f(i+3) 丙氨酸（A） 142 83 66 0.06 0.076 0.035 0.058 精氨酸（R） 98 93 95 0.070 0.106 0.099 0.085 天冬酰胺（N） 67 89 156 0.161 0.083 0.191 0.091 天冬氨酸（D） 101 54 146 0.147 0.110 0.179 0.081 半胱氨酸（C） 70 119 119 0.149 0.050 0.117 0.128 谷氨酸（E） 151 37 74 0.056 0.060 0.077 0.064 谷氨酰胺（Q） 111 110 98 0.074 0.098 0.037 0.098 甘氨酸（G） 57 75 156 0.102 0.085 0.190 0.152 组氨酸（H） 100 87 95 0.140 0.047 0.093 0.054 异亮氨酸（I） 108 160 47 0.043 0.034 0.013 0.056 亮氨酸（L） 121 130 59 0.061 0.025 0.036 0.070 赖氨酸（K） 114 74 101 0.055 0.115 0.072 0.095 甲硫氨酸（M） 145 105 60 0.068 0.082 0.014 0.055 苯丙氨酸（F） 113 138 60 0.059 0.041 0.065 0.065 脯氨酸（P） 57 55 152 0.102 0.301 0.034 0.068 丝氨酸（S） 77 75 143 0.120 0.139 0.125 0.106 苏氨酸（T） 83 119 96 0.086 0.108 0.065 0.079 色氨酸（W） 108 137 96 0.077 0.013 0.064 0.167 酪氨酸（Y） 69 147 114 0.082 0.065 0.114 0.125 缬氨酸（V） 106 170 50 0.062 0.048 0.028 0.053 在统计得出氨基酸残基倾向性因子的基础上，Chou 和 Fasman 提出了二级结构的经验规则，其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构

的过程中，首先扫描待预测的氨基酸序列，利用一组规则发现可能成为特定二级结构成核区域的短序列片段，然后对于成核区域进行扩展，不断扩大成核区域，直到二级结构类型可能发生变化为止，最后得到的就是一段具有特定二级结构的连续区域。下面是 4 个简要的规则。 1. α 螺旋规则沿着蛋白质序列寻找α螺旋核，相邻的6个残基中如果有至少4个残基倾向于形成α螺旋，即有 4 个残基对应的Pα〉100，则认为是螺旋核。然后从螺旋核向两端延伸，直至四肽片段 Pα的平均值小于 100 为止。按上述方式找到的片段长度大于 5，并且Pα的平均值大于Pβ的平均值，那么这个片段的二级结构就被预测为α螺旋。此外，不容许Pro在螺旋内部出现，但可出现在C末端以及N端的前三位，这也用于终止螺旋的延伸。 2. β 折叠规则如果相邻 6 个残基中若有 4 个倾向于形成β折叠，即有 4 个残基对应的Pβ〉100，则认为是折叠核。折叠核向两端延伸直至 4 个残基Pβ的平均值小于 100 为止。若延伸后片段的 Pβ的平均值大于 105，并且Pβ的平均值大于Pα的平均值，则该片段被预测为β折叠。 3. 转角规则转角的模型为四肽组合模型，要考虑每个位置上残基的组合概率，即特定残基在四肽模型中各个位置的概率。在计算过程中，对于从第i个残基开始的连续 4 个残基的片段，将上述概率相乘，根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于 7.5×10-5，四肽片段Pt的平均值大于 100，并且Pt 的均值同时大于Pα的均值以及Pβ的均值，则可以预测这样连续的 4 个残基形成转角。 4. 重叠规则假如预测出的螺旋区域和折叠区域存在重叠，则按照重叠区域Pα均值和Pβ均值的相对大小进行预测，若Pα 的均值大于Pβ的均值，则预测为螺旋；反之，预测为折叠

《生物信息学》课程教学资源（电子讲义）第九章 蛋白质序列分析与结构预测

《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测