全国大学生数学建模竞赛优秀论文汇编其中b为防止分母为零而设的一个小正

点击下载：全国大学生《数学建模》竞赛：2000A

正在加载图片...

全国大学生数学建模竞赛优秀论文汇编其中b为防止分母为零而设的一个小正数;与 o,=2aaa; n 1以第m-t个字符结尾的字串且与以第t个字符结尾的i字串完全相同否则 a为一个小于1的数,其存在体现了g的性质3.即如果越近的位置出现重复,认为字串信息量越少,反之较多 G;的表达式中,t表示两个相同字串之间的距离,i表示字串长度,这个表达式定量的给出距离和信息量之间的关系又由于长度不同的字串重复对信息量的影响是不同的,所以必须在a前乘上一个权值 ,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数c>1,使得t =c-1,这个表达式定量的给出长度和信息量之间的关系可以认为,字串长度太大的重复非常少见,则可将p取为某一固定的正数.那么,给出 a、b、c、四个参数,就可以把f严格确定下来.通过反复上机搜索,我们认为,取p=6,即只检查长度为1到6的字串即可3可另外,取a=0.392,b=0.1,c=3可以将AB组F3(1)值分得较开,并可以用来处理未知数据方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时信息量就会比重复少的序列所含有的信息少.所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性.从所给的A,B两类中可以很清楚地看到B中序列重复量大,所含的信息明显少于A组,而这个特征就被我们定义的熵函数凸显出来.将DNA序列看成一个信流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法,统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用.其综合模型的建立以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问题进行分析.第一种方法主要考虑的是单个字母出现的频率;第二种方法主要考虑每个字母的出现是否具有周期性;而第三种方法则考虑的是每条DNA所蕴含的信息量.我们将这令人满意的结考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学下苗就是我们将几种方法综合考虑得到最后结果以上我们用三种方法得到了三个目标函数:F1(1),F2(1),F3(1),这三个目标函数可以作为分类的判别标准.将它们看成定义在序列空间L=|是由a,g,t,c四个字母组成的序列!上,作用于实轴上的函数,现在,我们必须找到一个函数F,使得F可以体现序列的各个特征由于F1(1),F2(D),F3(1)的值域范围差别很大,为了有效的比较这三个函数,我们必须将它们归一化,将2=f(1)(i=1,2,3,以下同)看成一定义在L空间上的随机变量,A 为L的子集,则将f归一化得

<<向上翻页向下翻页>>

点击下载：全国大学生《数学建模》竞赛：2000A