正在加载图片...
三、模型建立与求解 研究DNA序列具有什么结构,其A,T,C,G4个碱基排成的看似随机的序列中隐藏着 什么规律,是解读人类基因组计划中DNA全序列草图的基础也是生物信息学( Bioinformaties) 最重要的课题之一 题目给出了20个已知为两个类别的人工制造的DNA序列,要求我们从中提取特征,构 造分类方法,从而对20个未标明类别的人工DNA序列和182个自然DNA序列进行分类.这 是模式识别中的“有人管理分类”问题,即事先规定了分类的标准和种类的数目,通过大批 已知样本的信息处理找出规律,再用计算机预报未知.给出的已知类别的样本称为学习样 本.对于此类问题,我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策) 考查分类模型的效率、预报未知这几个步骤来进行 (一)特征的形成和提取 为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征 进行变换,得到最能反映分类本质的特征.这就是特征形成和提取的过程.在列举了尽可能 完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前 提下)减到最小.这是因为:1多余的特征参数不但没有多少好处,而且会带来噪音,干扰分 类和数学模型的建立.2为了保证样本数和特征参数个数的比值足够大,而又不必要用太多的 样本,最好使特征参数的个数降至最少,模式识别计算一般要求样本数至少为变量数的3倍, 否则结果不够可靠.本问题的学习样本数为20个,故特征参数的个数以6~8个为宜 我们通过研究4个字符ATCG在DNA序列中的排列、组合特性,主要是研究字符和字 符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数 1.特征的形成 分别列举一个字符,2个字符,3个字符的排列在序列中出现的频率,构成基本特征集. 1)1个字符的出现频率 表1列出了20个样本中A,T,C,G这4个字符出现的频率.由于在不用于编码蛋 白质的序列片段中,A和T的含量特别多些,因此我们将A和T是否特别丰富作为一个特征在 表1中,列出了A和T出现的频率之和,(程序见附录一) 表 A+I 29.73 17.12 13.51 39.64 43.24 3.27.03 21.62 45.05 33.33 42.34 10.81 18.02 71.17 23.42 23.42 10.81 42.34 34.23三、模型建立与求解 研究 DNA 序列具有什么结构,其 A,T,C,G 4 个碱基排成的看似随机的序列中隐藏着 什么规律,是解读人类基因组计划中 DNA全序列草图的基础,也是生物信息学(Bioinformatcs) 最重要的课题之一. 题目给出了 20 个已知为两个类别的人工制造的 DNA 序列,要求我们从中提取特征,构 造分类方法,从而对 20 个未标明类别的人工 DNA 序列和 182 个自然 DNA 序列进行分类.这 是模式识别中的“有人管理分类”问题,即事先规定了分类的标准和种类的数目,通过大批 已知样本的信息处理找出规律,再用计算机预报未知.给出的已知类别的样本称为学习样 本.对于此类问题,我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策)、 考查分类模型的效率、预报未知这几个步骤来进行. (一)特征的形成和提取 为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征 进行变换,得到最能反映分类本质的特征.这就是特征形成和提取的过程.在列举了尽可能 完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前 提下)减到最小.这是因为:1.多余的特征参数不但没有多少好处,而且会带来噪音,干扰分 类和数学模型的建立.2.为了保证样本数和特征参数个数的比值足够大,而又不必要用太多的 样本,最好使特征参数的个数降至最少.模式识别计算一般要求样本数至少为变量数的 3 倍, 否则结果不够可靠.本问题的学习样本数为 20 个,故特征参数的个数以 6~8 个为宜. 我们通过研究 4 个字符 A,T,C,G 在 DNA 序列中的排列、组合特性,主要是研究字符和字 符串的排列在序列中出现的频率,从中提取 DNA 序列的结构特征参数. 1.特征的形成 分别列举一个字符,2 个字符,3 个字符的排列在序列中出现的频率,构成基本特征集. (1)1 个字符的出现频率 表 1 列出了 20 个样本中 A,T,C,G 这 4 个字符出现的频率.由于在不用于编码蛋 白质的序列片段中,A和 T 的含量特别多些,因此我们将 A和 T是否特别丰富作为一个特征.在 表 1 中,列出了 A 和 T 出现的频率之和.(程序见附录一) 表 1 A C T G A+T 1. 29.73 17.12 13.51 39.64 43.24 2. 27.03 16.22 15.32 41.44 42.34 3. 27.03 21.62 6.31 45.05 33.33 4. 42.34 10.81 28.83 18.02 71.17 5. 23.42 23.42 10.81 42.34 34.23
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有