正在加载图片...
窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。 在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U 与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二 级结构的出现频率分别为、fB和C,用它们预测片段U中心残基的二级结构,可以取频率 最高的构象态作为U中心残基的二级结构,或者直接以G、∥和C反映U中心残基各种构象 态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法 926人工神经网络方法 人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神 经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以 及基因序列的分析等等。将神经网络用于二级结构预测最早是由Qan和 Sejnowskit提出的 他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符 组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。 神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用 所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络 方法能够得到63-65%的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准 确率能够达到70%。 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层 以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即 任何一个输入层神经元都与任何一个隐含层的神经元连接,在图74中用一个大箭头表示 同样,隐含层神经元与输出层的神经元也是完全连接的。输入层用于接收蛋白质窗口序列数 据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包 括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此, 输入层共有21+(2m+1)个神经元。在图74中,对于每个残基,仅画出3个神经元。输出层 有3个神经元,分别对应于窗口中心残基的H、E、C三态。输入层中编码一个残基的21 个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地, 代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。在这样一种神 经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映 射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。 在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’ 与上述训练片段相比较,找出 50 个最相似的训练片段。假设这些相似片段中心残基各种二 级结构的出现频率分别为fα、fβ和fc ,用它们预测片段U’中心残基的二级结构,可以取频率 最高的构象态作为U’中心残基的二级结构,或者直接以fα、fβ和fc 反映U’中心残基各种构象 态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法。 9.2.6 人工神经网络方法 人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神 经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以 及基因序列的分析等等。将神经网络用于二级结构预测最早是由 Qian 和 Sejnowskit 提出的, 他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符 组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。 神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用 所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络 方法能够得到 63-65% 的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准 确率能够达到 70%。 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层 以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即 任何一个输入层神经元都与任何一个隐含层的神经元连接,在图 7.4 中用一个大箭头表示。 同样,隐含层神经元与输出层的神经元也是完全连接的。输入层用于接收蛋白质窗口序列数 据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包 括中心氨基酸残基及左右 m 个(共 2m+1 个)残基,每一个残基用 21 个神经元编码,因此, 输入层共有 21*(2m+1)个神经元。在图 7.4 中,对于每个残基,仅画出3个神经元。输出层 有 3 个神经元,分别对应于窗口中心残基的 H、E、C 三态。输入层中编码一个残基的 21 个神经元只有一个处于激发状态,即设置为 1,其余为 0,对应于一种氨基酸残基。类似地, 代表中心残基二级结构状态的输出单元的期望输出为 1,其它两个单元为 0。在这样一种神 经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映 射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有