全国大学生《数学建模》竞赛：2000A.pdf_大学文库

DNA序列的分类模型汤诗杰周亮王晓玲 (中国科技大学,合肥230026 指导老师孙广中编者按本文提出了DNA序列分类的三种模型,其一,基于A、G、TC四种碱基出现的频率;其二利用了同一碱基在序列中的间隔,这一信息是单纯考虑频率所不能包含的;在第三种模型中,作者把DNA序列视为一个信息流,考虑每增加一个字符所带来的信息增量.尽管文中倍息量的定义方式仍可讨论,但本文思想新颖活跃,有其独特之处.本文最后的分类方法,是以上三种的综合使用摘要本文针对DNA序列分类这个实际问题,提出了相应的数学模型,为了很好的体现DNA序列的局部性和全局性的特征,我们给出了衡量分类方法优劣的标准,即在满足一定限制条件的情况下,是否能充分反映序列的各方面特性依据我们提出的判别标准,单一标准的分类是无法满足要求的.我们的方法是侧重点不的三种方法的综合集成、这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量.利用这个方法,完成了对未知类型的人工序列及自然序列的分类工作,最后,对分类模型的优缺点进行了分析,并就模型的推广作了讨论 1问题的提出(路) 2问题的分析这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题.已知字母序列S1,S2,S3……S40,S1=x1x2x3…xn,其中x∈|a,t,c,gl;有字符序列集合A,B,满足A∩B=g,并当1≤≤10时,S∈A;当1120时,S;∈B.现要求考虑当21≤i≤40时,S1与集合A及集合B的关系在这里,问题的关键就是要从已知的分好类的20个字母序列中提取用于分类的特征知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将首先对用于分类的标准问题进行必要的讨论 3分类的标准及评价首先,我们提取的特征应该满足以下两个条件: (1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好的区分已经标示分类的20个序列.这是比较显然的一个理由 (2)所取特征必须是有一定的实际意义的.这一点是决不能被忽视的.比如,如果不考虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在B类中的十个序列都是以gt开始的,而已知在A类中10个序列没有以gt开始的,甚至以g开始的都没有显然这是满足上面的第一个条件的.如果仅因此就认为这种特征是主要的,并简单的利用这个特征将所有待分类的序列分成两类,显然是不甚合理的

DNA序列的分类模型 499 A 对于这样的一个复杂的分类问题,需要考虑的因素很多,也就是说,可供我们使用的分类特征有许多如何从众多的因素中提取分类的主要因素,是我们处理这个问题的困难之处.上面的第一个条件是我们的分类方法所必须满足的,可以看作是个限制条件;而第二个条件是我们在设计分类方法时必须考虑到的,可以看作是对分类方法优劣的一种衡量,是某种意义下的目标函数 4模型的建立及分析由上面的分析可知,由于DNA序列本身的复杂性,我们很难在不知道确切的分类标准的情况下,使用单一的方法来处理这个分类问题,由于,DNA序列同时具有局部性和全局性的特征,我们尝试综合使用几种设计思想不同的方法来处理这个问题,以使该分类方法具有好的分类性能和相当的健壮性下面我们先从不同的角度出发,提出三种侧重点不同的分类方法,第一种从频率角度出发,第二种从字母出现的周期性的角度出发,第三种从序列所带的某方面的信息量出发,并给出它们单独使用时的分类结果.我们认为,这三方面综合考虑,可以较好的体现出序列各个方面的特征,最后,从这三种方法出发,得到一个综合系统的分类方法,并利用它得到了最终的182个序列的分类结果方法1基于字母出现频率不同段的DNA中,每个碱基出现的概率并不相同,从生物理论中,我们知道,编码蛋白质的DNA中G、C含量偏高,而非编码蛋白质的DNA中A、T含量偏高.因此,A、G、TC的频率中会含有很多的信息,下面给出A、B组的频率统计,见表1,表2(略) 由统计的数字可以看出,A组的碱基构成与B组的碱基构成有较大的不同A组的G 含量较高,B组的T含量较高.为做定量化的分析,引入数学中的内积概念,即将A、T、G、C 的频率分别作为四维向量的四个分量(PA,PG,Px,PC),现在我们得到两组向量A、B(i 1,2,3…10),然后将未知的序列21-40作为一个新的向量C,要将它归入A组或B组我们可以尝试在 Hilbert空间中将向量归一化后求C与A组和B组的平均距离.记C、A、 B为归一化后的向量.为此我们计算内积和∑C·A与∑C,B,其中内积定义为欧氏度量引导出的内积(c1,c2,3,C4).(a1,a2,a3,a4)=c1a1+c242+c3a3+c4a4,即内积=(PA,P,Pr,Pn)A(PA,Pa,Px,P)短角内积小的两个序列,我们可以认为它们的相关性小,而内积大的序列,我们就认为其相关性大因此如果∑CA>∑CB,则认为C应归入A类,否则认为它应归入B类计算结果如表3所示由此,我们找到了区分C组的一种方法,这种比较∑C·A和∑C·B1的方法,我们可以归纳为一个目标函数F1(1),即 F1(4)= ∑C·B

500 全国大学生数学建模竞赛优秀论文汇编表3 二未知的与A组的与B组的属于的未知的与A组的与B组的属于的内积内积类别内积类别一 0.938814 0.920957 2 0.9269220.803952 12 0.8669760,853967 A 0.9397270.656827 130.8609550.917122 0.7885240.937135 0.9616890.67678 456789 0.9481940.772073 150.9603220.73909A 0.8012010.930121 16 0.90428 0.747578 0.9530190.76695 A 170,9447240.723664 0.7460710.968035 180 0.9546521B 0.9310070.613193 19 0.8856310.811837 A 0.8977740.844082 0.75584 0.941 方法一讨论这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计算,找出A,B两类DNA链中的频率特性,建立四维向量空间,然后对待求分类的序列统计频率,与已知分类的向量进行内积运算,找出量化的关联性,从而将其分类,但这种方法也有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类.所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征方法二甚于字母出现周期性在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规律性等等.前一个问题我们留到下面讨论,现在我们想办法处理后一个问题对于某单个字母,以a为例,假设它在序列中第t1,t2,……,t+1,个位置出现,我们试图找出这些数字之间的关联.首先,可以认识到考查t1的分布及绝对值是意义不大的,因为序列是一大段DNA中的一个片断,片断的起始段不同会导致t1的不同.于是为了抵消t 的线性位移,考虑下面一组值即字母a出现的间距可以看出,序列51,s2,"…sn的大小包含的信息是a的“稠密度”,也可看成一个与频率有关的量,前面已经处理过,所以我们可以考虑序列s1,2…,的波动幅度,幅度越小,说明s(i=1,2,……,k)的值越趋于统一,即a的出现周期性越大而表征波动幅度的量在统计中是中心矩.现求s的二阶中心矩,即方差 Var (s n-12(:-3)2,s= 同理,可以求出var、Var,、Va 由所得数据知,对varx与Var,上述方法对A、B组的区分率很高,就有良好的可分辨性,为了强调这种待征的显著性,我们用F2=Var/Var作为这种方法的目标函数由图1可以看出点与原点连线的斜率在A组中和B组中有显著差别,根据这个特征,A

全国大学生数学建模竞赛优秀论文汇编其中b为防止分母为零而设的一个小正数;与 o,=2aaa; n 1以第m-t个字符结尾的字串且与以第t个字符结尾的i字串完全相同否则 a为一个小于1的数,其存在体现了g的性质3.即如果越近的位置出现重复,认为字串信息量越少,反之较多 G;的表达式中,t表示两个相同字串之间的距离,i表示字串长度,这个表达式定量的给出距离和信息量之间的关系又由于长度不同的字串重复对信息量的影响是不同的,所以必须在a前乘上一个权值 ,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数c>1,使得t =c-1,这个表达式定量的给出长度和信息量之间的关系可以认为,字串长度太大的重复非常少见,则可将p取为某一固定的正数.那么,给出 a、b、c、四个参数,就可以把f严格确定下来.通过反复上机搜索,我们认为,取p=6,即只检查长度为1到6的字串即可3可另外,取a=0.392,b=0.1,c=3可以将AB组F3(1)值分得较开,并可以用来处理未知数据方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时信息量就会比重复少的序列所含有的信息少.所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性.从所给的A,B两类中可以很清楚地看到B中序列重复量大,所含的信息明显少于A组,而这个特征就被我们定义的熵函数凸显出来.将DNA序列看成一个信流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法,统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用.其综合模型的建立以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问题进行分析.第一种方法主要考虑的是单个字母出现的频率;第二种方法主要考虑每个字母的出现是否具有周期性;而第三种方法则考虑的是每条DNA所蕴含的信息量.我们将这令人满意的结考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学下苗就是我们将几种方法综合考虑得到最后结果以上我们用三种方法得到了三个目标函数:F1(1),F2(1),F3(1),这三个目标函数可以作为分类的判别标准.将它们看成定义在序列空间L=|是由a,g,t,c四个字母组成的序列!上,作用于实轴上的函数,现在,我们必须找到一个函数F,使得F可以体现序列的各个特征由于F1(1),F2(D),F3(1)的值域范围差别很大,为了有效的比较这三个函数,我们必须将它们归一化,将2=f(1)(i=1,2,3,以下同)看成一定义在L空间上的随机变量,A 为L的子集,则将f归一化得

关于DNA序列分类问题的模型冯涛康喆雯韩小军 (大连理工大学,大连116024) 指导老师贺明峰编者按本文以统计方法提取样本特征,以之作为BP神经网络的输入,用 MATLAB中相应算法进行训练.然后用于解决本分类问题,得到了较准确的结果.本文提取特征时考虑较为全面,在此基础上正确地运用了神经网络方法,发挥了神经网络适用于非线性问题、具有自适应能力的优点,思路清楚,文字简练摘要本文提出了一种将人工神经元网络用于DNA分类的方法,作者首先应用概率统计的方法对20个已知类别的人工DNA序列进行特征提取,形成DNA序列的特征向量,并将之作为样本输人BP神经网络进行学习.作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱)中的反向传播( Back propagation BP)算法来训练神经网络、在本文中,作者构造了两个三层BP神经网络,将提取的DNA特征向量集作为样本分别输入这两个网络进行学习,通过训练后,将20个未分类的人工序列样本和182个自然序列样本提取特征形成特征向量并输入两个网络进行分类.结果表明:本文中提出的分类方法能够以很高的正确率和精度对DNA序列进行分类,将人工神经元网络用于DNA序列分类是完全可行的 1问题重述(略) DNA序列由四个碱基AT、C、G按一定规律排列而成,已知所给人工序列1-10属于 A类,11-20属于B类.本题中,我们的主要工作有两个: 1)提取A、B两类特征; 2)以所提取A、B两类特征为依据,把20个人工序列及182个自然序列分为A、B两类 (可能存在同时不具有AB两类特征,不能归为A、B中任一类的序列) 在本题中,先以序列1-20为依据,提取出A、B两类序列的统计特征,然后运用神经网络中的BP网络对未知序列进行了分类识别 2模型建立的理论依据神经网络是近年来发展的一种大规模并行分布处理的非线性系统),其主要特点有: 1)能以任意精度逼近任意给定连续的非线性函数; 2)对复杂不确定问题具有自适应和自学习能力 3)具有较强的容错能力和信息综合能力,能同时处理定量和定性的信息,能很好地协调多种输入信息的关系传统的分类识别方法,对于一般非线性系统的识别很困难,而神经网络却为此提供了个强有力的工具.它实质上是选择了一个适当的神经网络模型来通近实际系统,目前,在神经网络中应用最多的是BP网络对于具有n个输入节点,m个输出节点的BP网络,输入到输出的关系可以看作是个n维欧式空间到m维欧式空间的映射,F:R”→Rm,这一映射是高度非线性映射,KT

506 全国大学生数学建模竞赛优秀论文汇编 Funahashi于1989年证明了这样的一个定理2:如果BP网络隐层节点可以根据问题的不同作相应的配置的话,那么用三层的激励函数为双曲线正切型的B网络,可以以任意精度逼近任意连续函数.这一定理保证了BP网络在分类识别问题中的可用性将复杂系统看作是一个黑箱,以实测输人,输出数据为学习样本,送入BP网络,网络通过样本进行学习,在学习过程中,网络的权值不断地修改3,使输入到输出的映象逐渐与实际对象的特性相通近,但网络输出的整体误差E小于给定的标准时,整个网络便模拟出实际系统的外部特性实际分类识别问题中,输入空间一般是多维欧式空间,我们可以计算空间中点与点的欧式距离,并根据这些距离知道哪些样本互相靠得近,哪些样本相距甚远,也就是说在输入空中存在着一个距离度量,只要输入模式接近于某个输出模式,由于BP网络所具有的联想记忆能力,则网络的输出亦会接近学习样本的输出 3模型的基本假设 1)假设碱基序列的特征值包括以下两个内容:(1)单个碱基在序列中的数量特征,即 A,T,C,G四种碱基在序列中的含量;(2)特征碱基串在序列中的数量特征(包括双字符碱基串和三字符碱基串) 2)由于给定的已知碱基序列是从DNA全序列中随机截取出来的,因此无法确定序列的起始位,无法从序列中辨认出氨基酸.假设在对DNA序列分类时,是从碱基层次上进行分类,而不是从氨基酸层次上分类 4)模型的建立与求解 4.1提取A、B两类的特征经过计算我们提取出A、B两类的统计特征(a)和(b),具体方法如下: 特征(a):单个字符出现的频率.特征(a)对应基本假设1中的第1条对1-20每个人工序列,我们统计出单个字符A、T、C、G出现的频率P,Pi=Ti/(S M+1),=A,T,C,G S为序列长度,M为字符长度(这里,M=1),Ti为每个序列中i出现的次数序列1-20特征(a)的数值如下:(略特征(b):特征字符串出现的频率.特征(b)对应基本假设1中的第2条通过对序列1-20种A、T、CG四字母的不同组合(如两两组合,三三组合,四四组合) 出现频率的分析,可以知道:对于双字符串和三字符串,均出现了数种多次出现较有规律的组合形式,而对于四四组合及更长的组合,字符串重复出现的频率小,分散度大,未得出较有规律的组合方式.我们认为:充分统计并分析序列1-20种双字符串及三字符串出现的规律已能较为全面地认识序列中的局部相关性及A、B两类的特征差异.因此,只对序列1 20种的双、三字符串进行统计分析,找出特征双字符串,特征三字符串以下是以提取特征三字符串为例介绍统计算法第一步确定各字符串的优先权重三字符串共有64种可能排列方式,对这些三字符串进行初次排列,确定优先权重以A类序列1为例, aggcacggaa.,g gctts

关于DNA序列分类问题的模型 507 1)指针指向第一个字符a,向后数两个字符,第一个出现的三字符串是ag,记录ag 2)指针向后移一个字符,第二个出现的三字符串是 3)以此类推,记录到该序列中最后一个三字符串(tgg)(特别的,如果相邻两个字符串完全相同,只纪录一次) 同理可得序列2-10种所有出现的三字符串,最后把A类中所有这些三字符串按其出现频率大小进行排序,出现频率多的字符串优先权重就大第二步选出特征字符串,对字符串进行二次排序,找出特征字符串仍以A类序列1为例: aggcacggaa 1)先考虑前5个字符,agca,其中包含了3个三字符串:ag,gc,ga,按第一步所得的三字符串优先权重的大小,确定这3个字符串中有一个为特征字符串(如果gge在前10个序列中出现的频率比ag和gca大,那么在本例中就选g,而不考虑第一个字符a) 2)再把指针移至特征字符串后的第一个字符(本例中移向a)重复(1)操作.以此类推我们采用分类统计的方法进行排序,B类的操作方法同A类第三步把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两类序列 (1-20)中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的特征差异,不予考虑,这样,统计出1-20中出现频率较大的特征三字符串(共21种),他们在每个序列中出现的频率为:3*该字符串在本序列中出现的次数/(SM+1),这里,M=3) 统计特征二字符串时,采取类似的方法,得出15个特征二字符串:他们在每个序列中出现的频率为:2“该字符串在本序列中出现的次数/(S-M+1),这里,M=3) 4.2网络输入与输出变量的选取及处理选取网络的输入变量时如输入变量过少,能引起建模不充分,过多的输入变量会降低网络的学习速度,延长收敛时间,使模型的输入输出关系过于复杂.结合本题的实际情况, 我们提出两套输入变量选取方案方案1输入每个序列中单字符及特征三字符串出现的频率(共25个输入变量) 方案2输入每个序列中单字符及特征双字符串出现的频率(共19个输入变量) 如果要同时考虑单字符特征双、三字符串出现的频率共需40个输入变量,模型过于复杂.因此,暂不考虑这种方案规定:A类序列的期望输出值为1,B类为1.这样,通过观察BP网络的输出值,可以直观地判断未知序列的类别 .3BP网络的结构与参数 BP网络的结构与参数决定着网络学习的效果和分类识别的精度.其中,输入、输出节点数由实际问题决定,本题中输出节点为1个.需要选择的是网络的激发函数,隐层数及各层隐节点数对方案1、2,各构造网络1、2与之相对应对于这两个网络,均选用三层BP网络,各层激发函数均为双曲线正切函数(函数值在-1~+1之间变化) R. P Lippmann研究中指出(4);对于任给K个实数值样本,有2K+1个隐节点的三层网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数.基于这一结论,我们根据