500 全国大学生数学建模竞赛优秀论文汇编表3 二未知的与A组的与B组的

点击下载：全国大学生《数学建模》竞赛：2000A

正在加载图片...

500 全国大学生数学建模竞赛优秀论文汇编表3 二未知的与A组的与B组的属于的未知的与A组的与B组的属于的内积内积类别内积类别一 0.938814 0.920957 2 0.9269220.803952 12 0.8669760,853967 A 0.9397270.656827 130.8609550.917122 0.7885240.937135 0.9616890.67678 456789 0.9481940.772073 150.9603220.73909A 0.8012010.930121 16 0.90428 0.747578 0.9530190.76695 A 170,9447240.723664 0.7460710.968035 180 0.9546521B 0.9310070.613193 19 0.8856310.811837 A 0.8977740.844082 0.75584 0.941 方法一讨论这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计算,找出A,B两类DNA链中的频率特性,建立四维向量空间,然后对待求分类的序列统计频率,与已知分类的向量进行内积运算,找出量化的关联性,从而将其分类,但这种方法也有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类.所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征方法二甚于字母出现周期性在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规律性等等.前一个问题我们留到下面讨论,现在我们想办法处理后一个问题对于某单个字母,以a为例,假设它在序列中第t1,t2,……,t+1,个位置出现,我们试图找出这些数字之间的关联.首先,可以认识到考查t1的分布及绝对值是意义不大的,因为序列是一大段DNA中的一个片断,片断的起始段不同会导致t1的不同.于是为了抵消t 的线性位移,考虑下面一组值即字母a出现的间距可以看出,序列51,s2,"…sn的大小包含的信息是a的“稠密度”,也可看成一个与频率有关的量,前面已经处理过,所以我们可以考虑序列s1,2…,的波动幅度,幅度越小,说明s(i=1,2,……,k)的值越趋于统一,即a的出现周期性越大而表征波动幅度的量在统计中是中心矩.现求s的二阶中心矩,即方差 Var (s n-12(:-3)2,s= 同理,可以求出var、Var,、Va 由所得数据知,对varx与Var,上述方法对A、B组的区分率很高,就有良好的可分辨性,为了强调这种待征的显著性,我们用F2=Var/Var作为这种方法的目标函数由图1可以看出点与原点连线的斜率在A组中和B组中有显著差别,根据这个特征,A

<<向上翻页向下翻页>>

点击下载：全国大学生《数学建模》竞赛：2000A