第五章 核 酸序列分析
第五章核酸序列分析
、碱基组成 DNA序列一个显而易见的特征是 四种碱基类型的分布。几乎所有的 研究都证明碱基是以不同频率分布 的
一、碱基组成 DNA序列一个显而易见的特征是 四种碱基类型的分布。几乎所有的 研究都证明碱基是以不同频率分布 的
表1九种完整DNA序列的碱基组成 序列 名称 碱基频率 总计 A C G T 噬菌体 入 LAMCG 0.250.240.250.26 48502 T PTT 0.270.230.240.26 39936 OX174 PXICG 0.240.220.310.23 5386 病毒 花椰菜镶病毒 MCACGDH 0.370.210.230.19 8016 人类乳头多瘤空泡病毒 BK PVBMM 0.300.200.300.20 肝炎B HPBAYW 0.280.220.230.27 3182 线粒体 人类 HUMMT 0.310.310.250.13 16569 牛 BOVET 0.330.260.270.14 鼠 MUSMT 0.350.240.290.12 16295 Gen Bank数据库中的数据
表1 九种完整DNA序列的碱基组成
成 区段 长度 5′例翼(2) 1000 0.33 0.23 0.22 0.22 3′例翼(2) 1000 0.29 0.15 0.26 0.30 内含子(4) 1996 0.27 0.17 0.27 0.29 外显子(6) 0.24 0.25 0.28 0.22 基因间() 2487 0.32 0.19 0.18 0.31 数据来自EMBL数据库 HSGLBN基因 表2的数据来自两个胎儿球蛋白基因(Gr和Ar), 每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同 的频率。在基因每一侧的500个任意碱基区 域被称为“侧翼”,基因间区域是指两个基因 间的其余序列
表2 人类胎儿球蛋白基因不同区段的碱基组成 表2的数据来自两个胎儿球蛋白基因(Gr和Ar), 每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同 的频率。在基因每一侧的500 个任意碱基区 域被称为“侧翼”,基因间区域是指两个基因 间的其余序列
同向重复序列分析 除了分析整个序列碱基关联程度的特钲外,我 们常对寻找同向重复序列 direct repeats)之类的 题感兴趣。 重复序列大致可以分成三类,即低度重复序列、 中度重复序列和高度重复序列。 中度重复序列的重复次数在10~105之间,占 总DNA的10%~40%,如小鼠基因组的中度重复 序列占20%,果蝇的占15%。通常是非编码序列。 它包括一些蛋白质基因和RNA基因, 高度重复序列的重复次数大于106,基本的重 复序列长度从几个碱基到几百个碱基或更长,占 基因组的10%~60%。既有重复几百万份的基因, 如rRNA基因和某些tRNA基因,更多的则是很 短的非编码序列的重复,这类序列是不能转录的
二.同向重复序列分析 除了分析整个序列碱基关联程度的特征外,我 们常对寻找同向重复序列(direct repeats)之类的问 题感兴趣。 重复序列大致可以分成三类,即低度重复序列、 中度重复序列和高度重复序列。 中度重复序列的重复次数在10~105之间,占 总DNA的10%~40%,如小鼠基因组的中度重复 序列占20%,果蝇的占15%。通常是非编码序列。 它包括一些蛋白质基因和RNA基因, 高度重复序列的重复次数大于106,基本的重 复序列长度从几个碱基到几百个碱基或更长,占 基因组的10%~60%。既有重复几百万份的基因, 如rRNA基因和某些tRNA基因,更多的则是很 短的非编码序列的重复,这类序列是不能转录的
高度重复序列 高度重复序列按其长度可分为: 卫星DNA:重复序列的长度在5~100bp 这些序列聚集在一起,串联排列,总长度可 达100mb( mega base)。它们在人群 中的多态性不强 小卫星DNA:重复序列的长度15~70bp, 串联排列,总长度在05~30kb。这类重复 序列在人群中存在高度的多态性。 微卫星DNA:重复序列的长度在2~6bp, 也有高度的多态性
高度重复序列 • 高度重复序列按其长度可分为: • 卫星DNA:重复序列的长度在5~100bp, 这些序列聚集在一起,串联排列,总长度可 达100mb(mega base)。它们在人群 中的多态性不强 • 小卫星DNA:重复序列的长度15~70bp, 串联排列,总长度在0.5~30kb。这类重复 序列在人群中存在高度的多态性。 • 微卫星DNA:重复序列的长度在2~6bp, 也有高度的多态性
RNA二级结构预测 尽管现有一些RNA折叠程序可以预测 RNA二级结构,但这类分析仍然是一门艺 术。RNA折叠有助于找出RNA分子中可能 的稳定茎区,但对给定的RNA分子来说 这一结果的生物学意义究竟有多大,还是 个未知数。即使有此局限性,二级结构 的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段
三、RNA二级结构预测 尽管现有一些RNA折叠程序可以预测 RNA二级结构,但这类分析仍然是一门艺 术。RNA折叠有助于找出RNA分子中可能 的稳定茎区,但对给定的RNA分子来说, 这一结果的生物学意义究竟有多大,还是 一个未知数。即使有此局限性,二级结构 的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段
四、从序列中寻找基因 基因组( genome)是指细胞或生物体的 遗传物质的总量。即整套染色体所包含 的DNA分子以及DNA分子所携带的全部 遗传信息。 基因(gene)被认为是DNA长链上 个由特定核苷酸组成并具有特定遗传功 能的片段
四、从序列中寻找基因 • 基因组(genome)是指细胞或生物体的 遗传物质的总量。即整套染色体所包含 的DNA分子以及DNA分子所携带的全部 遗传信息。 • 基因(gene)被认为是DNA长链上一 个由特定核苷酸组成并具有特定遗传功 能的片段
人类基因组DNA总长度约3×10bp(碱基 对),包括约3~4万个基因。有些基因是一个 个独立分布的,在基因与基因之间隔着较长间 隔DNA即非编码区;有些基因则紧密排列在 起形成基因簇即基因复合体(Gene complex or gene clusters)。无论是编 码区还是非编码区,在人类基因组中主要以四 类DNA序列存在,即单一序列、轻度重复序 列、中度重复序列和高度重复序列
• 人类基因组DNA总长度约3×109bp(碱基 对),包括约3~4万个基因。有些基因是一个 个独立分布的,在基因与基因之间隔着较长间 隔DNA即非编码区;有些基因则紧密排列在 一起形成基因簇即基因复合体(Gene complex or gene clusters)。无论是编 码区还是非编码区,在人类基因组中主要以四 类DNA序列存在,即单一序列、轻度重复序 列、中度重复序列和高度重复序列
1基因及基因区域预测 基因按其功能可分为结构基因和调控基因: 结构基因可被转录形成mRNA,并进而转译成多肽链 调控基因是指某些可调节控制结构基因表达的基因 在DNA链上,由蛋白质合成的起始密码开始,到终止 密码子为止的一个连续编码序列称为一个开放阅读框 Open Reading Frame, ORF 结构基因多含有插入序列,除了细菌和病毒的DNA中 ORF是连续的,包括人类在内的真核生物的大部分结 构基因为断裂基因,即其编码序列在DNA分子上是不 连续的,或被插入序列隔开:,经基因被转卖成前体 子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质
1.基因及基因区域预测 • 基因按其功能可分为结构基因和调控基因: • 结构基因可被转录形成mRNA,并进而转译成多肽链; • 调控基因是指某些可调节控制结构基因表达的基因。 • 在DNA链上,由蛋白质合成的起始密码开始,到终止 密码子为止的一个连续编码序列称为一个开放阅读框 (Open Reading Frame,ORF)。 • 结构基因多含有插入序列,除了细菌和病毒的DNA中 ORF是连续的,包括人类在内的真核生物的大部分结 构基因为断裂基因,即其编码序列在DNA分子上是不 连续的,或被插入序列隔开。断裂基因被转录成前体 mRNA,经过剪切过程,切除其中非编码序列(即内含 子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质