广西医科大学：《生物信息学》第五章实验利用核酸序列进行预测的方法

一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。几乎所有的研究都证明碱基是以不同频率分布的。

团购合买资源类别：文库，文档格式：PPT，文档页数：104，文件大小：5.73MB

第五章核酸序列分析

、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。几乎所有的研究都证明碱基是以不同频率分布的

一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。几乎所有的研究都证明碱基是以不同频率分布的

表1九种完整DNA序列的碱基组成序列名称碱基频率总计 A C G T 噬菌体入 LAMCG 0.250.240.250.26 48502 T PTT 0.270.230.240.26 39936 OX174 PXICG 0.240.220.310.23 5386 病毒花椰菜镶病毒 MCACGDH 0.370.210.230.19 8016 人类乳头多瘤空泡病毒 BK PVBMM 0.300.200.300.20 肝炎B HPBAYW 0.280.220.230.27 3182 线粒体人类 HUMMT 0.310.310.250.13 16569 牛 BOVET 0.330.260.270.14 鼠 MUSMT 0.350.240.290.12 16295 Gen Bank数据库中的数据

表1 九种完整DNA序列的碱基组成

成区段长度 5′例翼(2) 1000 0.33 0.23 0.22 0.22 3′例翼(2) 1000 0.29 0.15 0.26 0.30 内含子(4) 1996 0.27 0.17 0.27 0.29 外显子(6) 0.24 0.25 0.28 0.22 基因间() 2487 0.32 0.19 0.18 0.31 数据来自EMBL数据库 HSGLBN基因表2的数据来自两个胎儿球蛋白基因(Gr和Ar), 每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同的频率。在基因每一侧的500个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列

表2 人类胎儿球蛋白基因不同区段的碱基组成表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列

同向重复序列分析除了分析整个序列碱基关联程度的特钲外,我们常对寻找同向重复序列 direct repeats)之类的题感兴趣。重复序列大致可以分成三类,即低度重复序列、中度重复序列和高度重复序列。中度重复序列的重复次数在10~105之间,占总DNA的10%~40%,如小鼠基因组的中度重复序列占20%,果蝇的占15%。通常是非编码序列。它包括一些蛋白质基因和RNA基因, 高度重复序列的重复次数大于106,基本的重复序列长度从几个碱基到几百个碱基或更长,占基因组的10%~60%。既有重复几百万份的基因, 如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复,这类序列是不能转录的

二．同向重复序列分析除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。重复序列大致可以分成三类，即低度重复序列、中度重复序列和高度重复序列。中度重复序列的重复次数在10~105之间，占总DNA的10%~40%，如小鼠基因组的中度重复序列占20%，果蝇的占15%。通常是非编码序列。它包括一些蛋白质基因和RNA基因，高度重复序列的重复次数大于106，基本的重复序列长度从几个碱基到几百个碱基或更长，占基因组的10%~60%。既有重复几百万份的基因，如rRNA基因和某些tRNA基因，更多的则是很短的非编码序列的重复,这类序列是不能转录的

高度重复序列高度重复序列按其长度可分为: 卫星DNA:重复序列的长度在5~100bp 这些序列聚集在一起,串联排列,总长度可达100mb( mega base)。它们在人群中的多态性不强小卫星DNA:重复序列的长度15~70bp, 串联排列,总长度在05~30kb。这类重复序列在人群中存在高度的多态性。微卫星DNA:重复序列的长度在2~6bp, 也有高度的多态性

高度重复序列 • 高度重复序列按其长度可分为： • 卫星DNA：重复序列的长度在5~100bp，这些序列聚集在一起，串联排列，总长度可达100mb（mega base）。它们在人群中的多态性不强 • 小卫星DNA：重复序列的长度15~70bp，串联排列，总长度在0.5~30kb。这类重复序列在人群中存在高度的多态性。 • 微卫星DNA：重复序列的长度在2~6bp，也有高度的多态性

RNA二级结构预测尽管现有一些RNA折叠程序可以预测 RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说这一结果的生物学意义究竟有多大,还是个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段

三、RNA二级结构预测尽管现有一些RNA折叠程序可以预测 RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段

四、从序列中寻找基因基因组( genome)是指细胞或生物体的遗传物质的总量。即整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传信息。基因(gene)被认为是DNA长链上个由特定核苷酸组成并具有特定遗传功能的片段

四、从序列中寻找基因 • 基因组（genome)是指细胞或生物体的遗传物质的总量。即整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传信息。 • 基因（gene）被认为是DNA长链上一个由特定核苷酸组成并具有特定遗传功能的片段

人类基因组DNA总长度约3×10bp(碱基对),包括约3~4万个基因。有些基因是一个个独立分布的,在基因与基因之间隔着较长间隔DNA即非编码区;有些基因则紧密排列在起形成基因簇即基因复合体(Gene complex or gene clusters)。无论是编码区还是非编码区,在人类基因组中主要以四类DNA序列存在,即单一序列、轻度重复序列、中度重复序列和高度重复序列

• 人类基因组DNA总长度约3×109bp（碱基对），包括约3～4万个基因。有些基因是一个个独立分布的，在基因与基因之间隔着较长间隔DNA即非编码区；有些基因则紧密排列在一起形成基因簇即基因复合体（Gene complex or gene clusters）。无论是编码区还是非编码区，在人类基因组中主要以四类DNA序列存在，即单一序列、轻度重复序列、中度重复序列和高度重复序列

1基因及基因区域预测基因按其功能可分为结构基因和调控基因: 结构基因可被转录形成mRNA,并进而转译成多肽链调控基因是指某些可调节控制结构基因表达的基因在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框 Open Reading Frame, ORF 结构基因多含有插入序列,除了细菌和病毒的DNA中 ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开:,经基因被转卖成前体子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质

1.基因及基因区域预测 • 基因按其功能可分为结构基因和调控基因： • 结构基因可被转录形成mRNA，并进而转译成多肽链； • 调控基因是指某些可调节控制结构基因表达的基因。 • 在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框 (Open Reading Frame,ORF)。 • 结构基因多含有插入序列，除了细菌和病毒的DNA中 ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。断裂基因被转录成前体 mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟mRNA，并翻译成蛋白质

点击下载完整版文档（PPT格式）

共104页，可试读30页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录