正在加载图片...
关于DNA序列分类问题的模型 507 1)指针指向第一个字符a,向后数两个字符,第一个出现的三字符串是ag,记录ag 2)指针向后移一个字符,第二个出现的三字符串是 3)以此类推,记录到该序列中最后一个三字符串(tgg)(特别的,如果相邻两个字符串 完全相同,只纪录一次) 同理可得序列2-10种所有出现的三字符串,最后把A类中所有这些三字符串按其出 现频率大小进行排序,出现频率多的字符串优先权重就大 第二步选出特征字符串,对字符串进行二次排序,找出特征字符串 仍以A类序列1为例: aggcacggaa 1)先考虑前5个字符,agca,其中包含了3个三字符串:ag,gc,ga,按第一步所得的 三字符串优先权重的大小,确定这3个字符串中有一个为特征字符串(如果gge在前10个 序列中出现的频率比ag和gca大,那么在本例中就选g,而不考虑第一个字符a) 2)再把指针移至特征字符串后的第一个字符(本例中移向a)重复(1)操作.以此类推 我们采用分类统计的方法进行排序,B类的操作方法同A类 第三步把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两类序列 (1-20)中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的特征差异,不 予考虑,这样,统计出1-20中出现频率较大的特征三字符串(共21种),他们在每个序列 中出现的频率为:3*该字符串在本序列中出现的次数/(SM+1),这里,M=3) 统计特征二字符串时,采取类似的方法,得出15个特征二字符串:他们在每个序列中 出现的频率为:2“该字符串在本序列中出现的次数/(S-M+1),这里,M=3) 4.2网络输入与输出变量的选取及处理 选取网络的输入变量时如输入变量过少,能引起建模不充分,过多的输入变量会降低 网络的学习速度,延长收敛时间,使模型的输入输出关系过于复杂.结合本题的实际情况, 我们提出两套输入变量选取方案 方案1输入每个序列中单字符及特征三字符串出现的频率(共25个输入变量) 方案2输入每个序列中单字符及特征双字符串出现的频率(共19个输入变量) 如果要同时考虑单字符特征双、三字符串出现的频率共需40个输入变量,模型过于复 杂.因此,暂不考虑这种方案 规定:A类序列的期望输出值为1,B类为1.这样,通过观察BP网络的输出值,可以 直观地判断未知序列的类别 .3BP网络的结构与参数 BP网络的结构与参数决定着网络学习的效果和分类识别的精度.其中,输入、输出节 点数由实际问题决定,本题中输出节点为1个.需要选择的是网络的激发函数,隐层数及各 层隐节点数 对方案1、2,各构造网络1、2与之相对应对于这两个网络,均选用三层BP网络,各层 激发函数均为双曲线正切函数(函数值在-1~+1之间变化) R. P Lippmann研究中指出(4);对于任给K个实数值样本,有2K+1个隐节点的三层 网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数.基于这一结论,我们根据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有