正在加载图片...
500 全国大学生数学建模竞赛优秀论文汇编 表3 二未知的与A组的与B组的属于的未知的与A组的与B组的属于的 内积 内积 类别 内积 类别一 0.938814 0.920957 2 0.9269220.803952 12 0.8669760,853967 A 0.9397270.656827 130.8609550.917122 0.7885240.937135 0.9616890.67678 456789 0.9481940.772073 150.9603220.73909A 0.8012010.930121 16 0.90428 0.747578 0.9530190.76695 A 170,9447240.723664 0.7460710.968035 180 0.9546521B 0.9310070.613193 19 0.8856310.811837 A 0.8977740.844082 0.75584 0.941 方法一讨论这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计 算,找出A,B两类DNA链中的频率特性,建立四维向量空间,然后对待求分类的序列统计 频率,与已知分类的向量进行内积运算,找出量化的关联性,从而将其分类,但这种方法也 有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关 系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分 类.所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征 方法二甚于字母出现周期性 在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每 个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规 律性等等.前一个问题我们留到下面讨论,现在我们想办法处理后一个问题 对于某单个字母,以a为例,假设它在序列中第t1,t2,……,t+1,个位置出现,我们试 图找出这些数字之间的关联.首先,可以认识到考查t1的分布及绝对值是意义不大的,因为 序列是一大段DNA中的一个片断,片断的起始段不同会导致t1的不同.于是为了抵消t 的线性位移,考虑下面一组值 即字母a出现的间距 可以看出,序列51,s2,"…sn的大小包含的信息是a的“稠密度”,也可看成一个与频 率有关的量,前面已经处理过,所以我们可以考虑序列s1,2…,的波动幅度,幅度越 小,说明s(i=1,2,……,k)的值越趋于统一,即a的出现周期性越大而表征波动幅度的 量在统计中是中心矩.现求s的二阶中心矩,即方差 Var (s n-12(:-3)2,s= 同理,可以求出var、Var,、Va 由所得数据知,对varx与Var,上述方法对A、B组的区分率很高,就有良好的可分辨 性,为了强调这种待征的显著性,我们用F2=Var/Var作为这种方法的目标函数 由图1可以看出点与原点连线的斜率在A组中和B组中有显著差别,根据这个特征,A
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有