蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为

正在加载图片...

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代, 第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息:(2)基于物理化学性质:(3)基于序列模式:(4)基于多层神经网络;(5) 基于图论:(5)基于多元统计;(6)基于机器学习的专家规则:(7)最邻近算法。第代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息, 最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法 PHDsec。 PHDsec利用通过多重序列比对得到的进化信息作为神经网络蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代，第一代是基于单个氨基酸残基统计分析，从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析，使用大量的数据作为统计基础，统计的对象不再是单个氨基酸残基，而是氨基酸片段，片段的长度通常为 11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时，以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类：（1）基于统计信息；（2）基于物理化学性质；（3）基于序列模式；（4）基于多层神经网络；（5）基于图论；（5）基于多元统计；（6）基于机器学习的专家规则；（7）最邻近算法。第一代和第二代预测方法有共同的缺陷，它们对三态预测的准确率都低于 70%，而对 β 折叠预测的准确率仅为 28∼48%，其主要原因是这些方法在进行二级结构预测时只利用局部信息，最多只用局部的 20 个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明，二级结构的形成并非完全由局域的序列片段决定，长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响，尤其是 β 折叠。从理论上来说，局部信息仅包含二级结构信息的 65%左右，因此，可以想象，只用局部信息的二级结构预测方法，其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息，使二级结构预测的准确程度有了比较大的提高，特别是对 β 折叠的预测准确率有较大的提高，预测结果与实验观察趋于一致。一般 75%的氨基酸残基可以被置换而不改变蛋白质的结构，然而，有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论，但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化，不可能变化的部分是进化保守区域。可变部分的变化不改变结构，而不可变部分的变化则改变蛋白质的结构，由此失去蛋白质原有的功能，因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样，从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息，得到蛋白质家族中的特定残基替换模式，此外，通过序列的比对也可以得到长程信息。目前，许多二级结构预测的算法是基于序列比对的，通过序列比对可以计算出目标序列（待预测其二级结构的序列）中每个氨基酸的保守程度。对于二级结构三态（α，β，none）预测准确率首先达到 70%的方法是基于统计的神经网络方法 PHDsec。PHDsec 利用通过多重序列比对得到的进化信息作为神经网络

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测