9.2.5 最邻近方法早期，由于缺乏数据，预测方法大多是基于单条序列的。

正在加载图片...

→氨基酸序列→ 图7.3人类视紫质蛋白硫水图 925最邻近方法早期,由于缺乏数据,预测方法大多是基于单条序列的。随着序列和结构数据的增加人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。在 Levitt等人建立的方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列T进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。基于上述的策略,最邻近方法( Nearest Neighboring methods)在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15) 扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过9.2.5 最邻近方法早期，由于缺乏数据，预测方法大多是基于单条序列的。随着序列和结构数据的增加，人们的研究转向同源序列分析，充分利用隐藏在同源序列中的结构信息，使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较，通过序列比较发现相似的序列，根据相似序列具有相似结构的原理，将相似序列（或者序列片段）所对应的二级结构作为预测的结果。在Levitt等人建立的方法中，将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于 30%的序列，则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。基于上述的策略，最邻近方法（Nearest Neighboring methods）在预测二级结构方面包括两个过程，一是学习过程，二是预测过程。在学习阶段，用一个滑动窗口（例如长度为 15）扫描已知结构的训练序列，序列个数为几百个，并且这些序列彼此之间的相似性很小。通过

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测