正在加载图片...
506 全国大学生数学建模竞赛优秀论文汇编 Funahashi于1989年证明了这样的一个定理2:如果BP网络隐层节点可以根据问题的不 同作相应的配置的话,那么用三层的激励函数为双曲线正切型的B网络,可以以任意精度 逼近任意连续函数.这一定理保证了BP网络在分类识别问题中的可用性 将复杂系统看作是一个黑箱,以实测输人,输出数据为学习样本,送入BP网络,网络通 过样本进行学习,在学习过程中,网络的权值不断地修改3,使输入到输出的映象逐渐与实 际对象的特性相通近,但网络输出的整体误差E小于给定的标准时,整个网络便模拟出实 际系统的外部特性 实际分类识别问题中,输入空间一般是多维欧式空间,我们可以计算空间中点与点的欧 式距离,并根据这些距离知道哪些样本互相靠得近,哪些样本相距甚远,也就是说在输入空 中存在着一个距离度量,只要输入模式接近于某个输出模式,由于BP网络所具有的联想 记忆能力,则网络的输出亦会接近学习样本的输出 3模型的基本假设 1)假设碱基序列的特征值包括以下两个内容:(1)单个碱基在序列中的数量特征,即 A,T,C,G四种碱基在序列中的含量;(2)特征碱基串在序列中的数量特征(包括双字符碱基 串和三字符碱基串) 2)由于给定的已知碱基序列是从DNA全序列中随机截取出来的,因此无法确定序列 的起始位,无法从序列中辨认出氨基酸.假设在对DNA序列分类时,是从碱基层次上进行 分类,而不是从氨基酸层次上分类 4)模型的建立与求解 4.1提取A、B两类的特征 经过计算我们提取出A、B两类的统计特征(a)和(b),具体方法如下: 特征(a):单个字符出现的频率.特征(a)对应基本假设1中的第1条 对1-20每个人工序列,我们统计出单个字符A、T、C、G出现的频率P,Pi=Ti/(S M+1),=A,T,C,G S为序列长度,M为字符长度(这里,M=1),Ti为每个序列中i出现的次数 序列1-20特征(a)的数值如下:(略 特征(b):特征字符串出现的频率.特征(b)对应基本假设1中的第2条 通过对序列1-20种A、T、CG四字母的不同组合(如两两组合,三三组合,四四组合) 出现频率的分析,可以知道:对于双字符串和三字符串,均出现了数种多次出现较有规律的 组合形式,而对于四四组合及更长的组合,字符串重复出现的频率小,分散度大,未得出较有 规律的组合方式.我们认为:充分统计并分析序列1-20种双字符串及三字符串出现的规 律已能较为全面地认识序列中的局部相关性及A、B两类的特征差异.因此,只对序列1 20种的双、三字符串进行统计分析,找出特征双字符串,特征三字符串 以下是以提取特征三字符串为例介绍统计算法 第一步确定各字符串的优先权重 三字符串共有64种可能排列方式,对这些三字符串进行初次排列,确定优先权重 以A类序列1为例, aggcacggaa.,g gctts
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有