关于DNA序列分类问题的模型 507 1)指针指向第一个字符a,向后数两个

点击下载：全国大学生《数学建模》竞赛：2000A

正在加载图片...

关于DNA序列分类问题的模型 507 1)指针指向第一个字符a,向后数两个字符,第一个出现的三字符串是ag,记录ag 2)指针向后移一个字符,第二个出现的三字符串是 3)以此类推,记录到该序列中最后一个三字符串(tgg)(特别的,如果相邻两个字符串完全相同,只纪录一次) 同理可得序列2-10种所有出现的三字符串,最后把A类中所有这些三字符串按其出现频率大小进行排序,出现频率多的字符串优先权重就大第二步选出特征字符串,对字符串进行二次排序,找出特征字符串仍以A类序列1为例: aggcacggaa 1)先考虑前5个字符,agca,其中包含了3个三字符串:ag,gc,ga,按第一步所得的三字符串优先权重的大小,确定这3个字符串中有一个为特征字符串(如果gge在前10个序列中出现的频率比ag和gca大,那么在本例中就选g,而不考虑第一个字符a) 2)再把指针移至特征字符串后的第一个字符(本例中移向a)重复(1)操作.以此类推我们采用分类统计的方法进行排序,B类的操作方法同A类第三步把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两类序列 (1-20)中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的特征差异,不予考虑,这样,统计出1-20中出现频率较大的特征三字符串(共21种),他们在每个序列中出现的频率为:3*该字符串在本序列中出现的次数/(SM+1),这里,M=3) 统计特征二字符串时,采取类似的方法,得出15个特征二字符串:他们在每个序列中出现的频率为:2“该字符串在本序列中出现的次数/(S-M+1),这里,M=3) 4.2网络输入与输出变量的选取及处理选取网络的输入变量时如输入变量过少,能引起建模不充分,过多的输入变量会降低网络的学习速度,延长收敛时间,使模型的输入输出关系过于复杂.结合本题的实际情况, 我们提出两套输入变量选取方案方案1输入每个序列中单字符及特征三字符串出现的频率(共25个输入变量) 方案2输入每个序列中单字符及特征双字符串出现的频率(共19个输入变量) 如果要同时考虑单字符特征双、三字符串出现的频率共需40个输入变量,模型过于复杂.因此,暂不考虑这种方案规定:A类序列的期望输出值为1,B类为1.这样,通过观察BP网络的输出值,可以直观地判断未知序列的类别 .3BP网络的结构与参数 BP网络的结构与参数决定着网络学习的效果和分类识别的精度.其中,输入、输出节点数由实际问题决定,本题中输出节点为1个.需要选择的是网络的激发函数,隐层数及各层隐节点数对方案1、2,各构造网络1、2与之相对应对于这两个网络,均选用三层BP网络,各层激发函数均为双曲线正切函数(函数值在-1~+1之间变化) R. P Lippmann研究中指出(4);对于任给K个实数值样本,有2K+1个隐节点的三层网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数.基于这一结论,我们根据

<<向上翻页向下翻页>>

点击下载：全国大学生《数学建模》竞赛：2000A