正在加载图片...
PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质 PHDsec首先利用 BLAST在 SWISS-PROT数据库中搜索同源序列,然后再利用 MaxHom程 序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。 PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中。这里的神 经网络是一个多层的前馈网络,如图7.5所示。整个网络模型包括两个层次。第一层网络进 行序列到结构的映射。对于第一层网络的输入包括两个部分,如图75(a)、(b)所 部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整 个序列的全局信息。首先,取多重序列比对的w列,如图75(a)所示,这里w=7;然后, 计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种 氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第 个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据 分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置 的保守程度(cons)。全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示 蛋白质长度的数据有4个(分别对应于4个区间,见图7.5(b)),当前窗口到蛋白质N-端和 C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋 E代表折叠,L代表其它。 第二层次网络是一个从结构到结构的映射,作用是对前一层网络的输出进行校正。第二 层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息 (cons)。所有第二层网络的输入形式表示为:3(二级结构)+1(空缺)+1(cons)+32(全 局数据)。第二层网络输出的含义与第一层网络的输出一样 建立好系统的模型后(开始的时候系统仅仅是一个空壳), PHDsec对神经网络进行训 练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求 神经网络至少能够正确处理训练数据。 PHDsec的训练数据是随机选取的。PHDsec 的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质, PHDsec 首先利用 BLAST 在 SWISS-PROT 数据库中搜索同源序列,然后再利用 MaxHom 程 序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。 PHDsec 的第二步工作是将得到的多重比对的统计结果送到一个神经网络中。这里的神 经网络是一个多层的前馈网络,如图 7.5 所示。整个网络模型包括两个层次。第一层网络进 行序列到结构的映射。对于第一层网络的输入包括两个部分,如图 7.5(a)、( b) 所示。一 部分是序列的局部信息,取自窗口内 w(缺省值为 13)个氨基酸残基,另一部分是来自整 个序列的全局信息。首先,取多重序列比对的 w 列,如图 7.5(a)所示,这里 w=7;然后, 计算序列局部统计数据以及序列全局数据。局部数据有 24 个,其中 20 个数据对应于 20 种 氨基酸,1 个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一 个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2 个数据 分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1 个数据表示该位置 的保守程度(cons)。全局数据有 32 个,其中 20 个数据表示各种氨基酸所占百分比,表示 蛋白质长度的数据有 4 个(分别对应于 4 个区间,见图 7.5(b)),当前窗口到蛋白质 N-端和 C-端的距离分别有 4 个。第一层次网络的输出是窗口中心残基二级结构的状态,H 代表螺旋, E 代表折叠,L 代表其它。 第二层次网络是一个从结构到结构的映射,作用是对前一层网络的输出进行校正。第二 层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息 (cons)。所有第二层网络的输入形式表示为:3(二级结构)+1(空缺)+1(cons)+32(全 局数据)。第二层网络输出的含义与第一层网络的输出一样。 建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec 对神经网络进行训 练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求 神经网络至少能够正确处理训练数据。PHDsec 的训练数据是随机选取的
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有