窗口在蛋白质序列上移动，利用窗口内蛋白质序列、二级结构类型、反映空间结构信

正在加载图片...

窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30个氨基酸,窗口大小为61。网络的输出层有33个节点, 其中30个节点对应于中心氨基酸前30个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8A),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络, 然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列的分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段, 这些保守的序列片段称为氨基酸序列模式。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应,分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构, 而详细地分析这些关键的结构部分,有助于我们认识蛋白质作用的机理,了解蛋白质与其它生物分子之间的相互作用,甚至为新药设计提供依据。 942线索化方法(折叠识别方法在前一节已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质, 很难通过序列比对找出它们之间的关系,必须设计新的分析方法。对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2)U和T的序列必须被正确地比对或对比排列:(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区, 建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题,而正确比对U和T的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是:建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价窗口在蛋白质序列上移动，利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息，于中心氨基酸两侧分别取 30 个氨基酸，窗口大小为 61。网络的输出层有 33 个节点，其中 30 个节点对应于中心氨基酸前 30 个氨基酸，其值为“０”或者“１”，这取决于该氨基酸与中心氨基酸的距离是否小于给定的值（如８Å），这与点距离矩阵相对应。另外３个输出节点用于表示二级结构类型（螺旋、折叠、卷曲）。利用已知结构的同源蛋白质训练该网络，然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。在实际研究中，对于蛋白质结构的分析和预测往往着眼于某些关键部位，或者功能区域。通过对蛋白质序列的分析可以发现，在一个蛋白质家族中，存在着保守的氨基酸序列片段，这些保守的序列片段称为氨基酸序列模式。在蛋白质家族进化的过程中，序列模式的变化被强制约束，以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应，分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构，而详细地分析这些关键的结构部分，有助于我们认识蛋白质作用的机理，了解蛋白质与其它生物分子之间的相互作用，甚至为新药设计提供依据。 9.4.2 线索化方法（折叠识别方法）在前一节已经提到，两个自然进化的蛋白质如果具有 30%的等同序列，则它们是同源的蛋白质，具有基本相同的三维结构。那么，其余的是否就不是同源的呢？实际并非如此。在最新的蛋白质数据库 PDB 中，有上千对蛋白质具有同源的空间结构，但它们的序列等同部分小于 25%，即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质，很难通过序列比对找出它们之间的关系，必须设计新的分析方法。对于一个未知结构的蛋白质（U），如果找到一个已知结构的远程同源蛋白质（T），那么可以根据 T 的结构模板通过远程同源模型化方法建立 U 的三维结构模型。一个成功的远程同源模型化方法要解决三个问题：（1）检测远程同源蛋白质（T）；（2）U 和 T 的序列必须被正确地比对或对比排列；（3）修改一般的同源模型化过程，以应用于相似度非常低的情况，即处理更多的环区，建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题，而正确比对 U 和 T 的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题，其基本思想是：建立一个从 U 到已知结构 T 的线索，并通过一些基于环境或基于知识的势，评价

<<向上翻页向下翻页>>

点击下载：《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测