正在加载图片...
DNA序列的分类模型 50 组和B组可以很好地区分开来,并且较好地弥补了方法一中的不全面之处 车个1, 出的 g间隔方差 方法二讨论这种方法是从序列中相邻相同字母之间的距离即字母出现的周期性着手 分析的,它统计了每个字母在序列中两次出现的间隔,并且用方差度量这种间隔的波动大 小,由此找到了一个能较好区分A,B组的目标函数,综合地考虑了序列全局和局部的性质 方法三基于序列熵值 我们可以把一串DNA序列看成一个信息流,这与生物学的基础知识是相应的.关于 A、B的分类,可以考虑其单位序列所含信息量(即熵)的多少,从直观上来看,我们可以认 为,重复得越多,信息量越少.,这是我们通过观察A、B组的特点而归纳出的方法 设序列为L=(a1,a2,a3,…,an);前m个字符所带的信息量为/m(1),记 :gm(1)=fm(1)-fm-1(1), 即gm(1)为加上第m个字母之后所增加的信息量.然后,由gm(1)=f=(1)-fm1(1),得 fn、1)(1),则f(D)为整个序列所带的信息量、F3(1)2即为单位长度所带 的信息量.现在的问题就归结为如何找出一个合适的gm(4) 我们有理由认为:g具有以下性质 性质1:gm(1)>0.即任意加上一个字符,它或多或少带有一定信息量; 性质2:第m个字符(或者是以它结尾的较短序列)与前面的序列(信息流)重复得越 多,gn()的值必然越小 性质3:第m个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复 (1)的值越小;和与它离得越远的重复,g=(1)的值越大;( 性质4:f0(1)=0 对此,我们可以构造如下函数 gn (L) b+t11+r202
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有