正在加载图片...
全国 大学生 数学建模竞赛优秀论文汇编 其中b为防止分母为零而设的一个小正数;与 o,=2aaa; n 1以第m-t个字符结尾的字串且与以第t个字符结尾的i字串完全相同 否则 a为一个小于1的数,其存在体现了g的性质3.即如果越近的位置出现重复,认为字 串信息量越少,反之较多 G;的表达式中,t表示两个相同字串之间的距离,i表示字串长度,这个表达式定量的 给出距离和信息量之间的关系 又由于长度不同的字串重复对信息量的影响是不同的,所以必须在a前乘上一个权值 ,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数c>1,使得t =c-1,这个表达式定量的给出长度和信息量之间的关系 可以认为,字串长度太大的重复非常少见,则可将p取为某一固定的正数.那么,给出 a、b、c、四个参数,就可以把f严格确定下来.通过反复上机搜索,我们认为,取p=6,即 只检查长度为1到6的字串即可3可 另外,取a=0.392,b=0.1,c=3可以将AB组F3(1)值分得较开,并可以用来处理 未知数据 方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时 信息量就会比重复少的序列所含有的信息少.所以,其侧重点是是序列前后的重复性,也就 是序列元素的相关性.从所给的A,B两类中可以很清楚地看到B中序列重复量大,所含的 信息明显少于A组,而这个特征就被我们定义的熵函数凸显出来.将DNA序列看成一个信 流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法,统计学和信息论 的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用.其 综合模型的建立 以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问 题进行分析.第一种方法主要考虑的是单个字母出现的频率;第二种方法主要考虑每个字 母的出现是否具有周期性;而第三种方法则考虑的是每条DNA所蕴含的信息量.我们将这 令人满意的结 考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种 方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学 下苗就是我们将几种方法综合考虑得到最后结果 以上我们用三种方法得到了三个目标函数:F1(1),F2(1),F3(1),这三个目标函数可以作 为分类的判别标准.将它们看成定义在序列空间L=|是由a,g,t,c四个字母组成的序 列!上,作用于实轴上的函数,现在,我们必须找到一个函数F,使得F可以体现序列的各个特 征 由于F1(1),F2(D),F3(1)的值域范围差别很大,为了有效的比较这三个函数,我们必 须将它们归一化,将2=f(1)(i=1,2,3,以下同)看成一定义在L空间上的随机变量,A 为L的子集,则将f归一化得
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有