正在加载图片...
DNA序列的分类模型 汤诗杰周亮王晓玲 (中国科技大学,合肥230026 指导老师孙广中 编者按本文提出了DNA序列分类的三种模型,其一,基于A、G、TC四种碱基出现的频 率;其二利用了同一碱基在序列中的间隔,这一信息是单纯考虑频率所不能包含的;在第三种模 型中,作者把DNA序列视为一个信息流,考虑每增加一个字符所带来的信息增量.尽管文中倍 息量的定义方式仍可讨论,但本文思想新颖活跃,有其独特之处.本文最后的分类方法,是以上 三种的综合使用 摘要本文针对DNA序列分类这个实际问题,提出了相应的数学模型,为了很好的体 现DNA序列的局部性和全局性的特征,我们给出了衡量分类方法优劣的标准,即在满足一定限 制条件的情况下,是否能充分反映序列的各方面特性 依据我们提出的判别标准,单一标准的分类是无法满足要求的.我们的方法是侧重点不 的三种方法的综合集成、这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周 期性,序列所带有的信息含量.利用这个方法,完成了对未知类型的人工序列及自然序列的分 类工作,最后,对分类模型的优缺点进行了分析,并就模型的推广作了讨论 1问题的提出(路) 2问题的分析 这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个 问题.已知字母序列S1,S2,S3……S40,S1=x1x2x3…xn,其中x∈|a,t,c,gl;有字符 序列集合A,B,满足A∩B=g,并当1≤≤10时,S∈A;当1120时,S;∈B.现要 求考虑当21≤i≤40时,S1与集合A及集合B的关系 在这里,问题的关键就是要从已知的分好类的20个字母序列中提取用于分类的特征 知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将 首先对用于分类的标准问题进行必要的讨论 3分类的标准及评价 首先,我们提取的特征应该满足以下两个条件: (1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好 的区分已经标示分类的20个序列.这是比较显然的一个理由 (2)所取特征必须是有一定的实际意义的.这一点是决不能被忽视的.比如,如果不考 虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在B类中的十个序列 都是以gt开始的,而已知在A类中10个序列没有以gt开始的,甚至以g开始的都没有 显然这是满足上面的第一个条件的.如果仅因此就认为这种特征是主要的,并简单的利用 这个特征将所有待分类的序列分成两类,显然是不甚合理的
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有