第二章人类基因 基因(gene)是细胞内遗传物质的结构和功能单位,它以脱氧核 糖核酸( deoxyribonucleic acid,DNA)化学形式存在于染色体上。在 人类,基因通过生殖细胞从亲代向子代传递。早在1944年, Avery等 用实验的方法就直接证明了DNA是生物的遗传物质。1953年 Watson 和 Crick在前人的工作基础上,提出了著名的DNA分子双螺旋结构模 型,奠定了基因复杂功能的结构基础。从此,遗传学的研究在医学领 域取得突飞猛进的发展。 第一节基因的概念 人类对基因的认识经历了一个由浅入深的历史发展过程。早在19 世纪60年代,奥地利神甫孟德尔就采用豌豆作为实验材料,进行了8 年的杂交试验研究,提出生物的性状是由遗传因子( hereditary factor) 决定的,并总结出遗传因子传递的分离定律和自由组合定律。20世纪 初丹麦遗传学家 Johannsen将遗传因子更名为基因(gene),并一直沿 用至今。随后美国遗传学家摩尔根及其学生 Sturtevant、 Muller等通 过果蝇的杂交试验证实,基因在染色体上呈直线排列,并提出了基因 传递的连锁交换定律,发表了著名的《基因论》;1927年 Muller等人 证明用人为因素(如ⅹ线等)可使基因发生突变;在此之前 Garrod (1908)认为人类的黑尿酸症是一种遗传病,病因是患者缺乏某种相 关生化反应的酶。于是人们开始将基因与酶联系起来。1936年 Beadle 等对果蝇( Drosophila melanogaster)朱矽眼型、朱红眼型和野生型进 行研究,再次证实了基因与酶的关系。1941年他们又根据对粗糙链抱 霉( Neurospora crassa)的研究结果,提出了“一个基因决定一种酶” 的学说;然而,后来的研究揭示,基因除了决定酶之外,还决定其他 蛋白质,于是有人提出了“一个基因一种蛋白质”的假说。但人们又
第二章 人类基因 基因(gene)是细胞内遗传物质的结构和功能单位,它以脱氧核 糖核酸(deoxyribonucleic acid,DNA)化学形式存在于染色体上。在 人类,基因通过生殖细胞从亲代向子代传递。早在 1944 年,Avery 等 用实验的方法就直接证明了 DNA 是生物的遗传物质。1953 年 Watson 和 Crick 在前人的工作基础上,提出了著名的 DNA 分子双螺旋结构模 型,奠定了基因复杂功能的结构基础。从此,遗传学的研究在医学领 域取得突飞猛进的发展。 第一节 基因的概念 人类对基因的认识经历了一个由浅入深的历史发展过程。早在 19 世纪 60 年代,奥地利神甫孟德尔就采用豌豆作为实验材料,进行了 8 年的杂交试验研究,提出生物的性状是由遗传因子(hereditary factor) 决定的,并总结出遗传因子传递的分离定律和自由组合定律。20 世纪 初丹麦遗传学家 Johannsen 将遗传因子更名为基因(gene),并一直沿 用至今。随后美国遗传学家摩尔根及其学生 Sturtevent、Mü11er 等通 过果蝇的杂交试验证实,基因在染色体上呈直线排列,并提出了基因 传递的连锁交换定律,发表了著名的《基因论》;1927 年 Müller 等人 证明用人为因素(如 X 线等)可使基因发生突变;在此之前 Garrod (1908)认为人类的黑尿酸症是一种遗传病,病因是患者缺乏某种相 关生化反应的酶。于是人们开始将基因与酶联系起来。1936 年 Beadle 等对果蝇(Drosophila melanogaster)朱矽眼型、朱红眼型和野生型进 行研究,再次证实了基因与酶的关系。1941 年他们又根据对粗糙链抱 霉(Neurospora crassa)的研究结果,提出了“一个基因决定一种酶” 的学说;然而,后来的研究揭示,基因除了决定酶之外,还决定其他 蛋白质,于是有人提出了“—个基因一种蛋白质”的假说。但人们又
发现有的蛋白质可以由几条多肽链组成,因此又修正成“一个基因一 条多肽链”假说;经过100余年的研究,基因的概念逐渐清晰。但直 到20世纪50年代,人们对基因的认识还仅仅停留在逻辑概念阶段, 关于基因的物质基础和理化本质的认识,仍然是一个谜。首次揭开这 一谜底的是1944年Avey等人的工作,他们用实验方法直接证明了 DNA是生物的遗传物质。1953年 Watson和 Crick在前人的工作基础 上,应用现代物理学和化学的新技术,对DNA的分子结构进行了深 入研究,提出了著名的DNA分子双螺旋( double heliⅸ)结构模型。 这个模型显示DNA具有自我复制功能,正式揭示了遗传之谜。至此 人们认识到,基因是具有特定“遗传效应”的DNA片段、它决定细 胞内RNA和蛋白质(包括酶分子)等的合成,从而决定生物遗传性 状 现代遗传学认为,基因是决定一定功能产物的DNA序列。这种 功能产物主要是蛋白质和RNA。一个基因的结构除了编码特定功能产 物的DNA序列外,还包括对这个特定产物表达所需的邻接DNA序列 在对某些遗传病的家系研究中发现,虽然基因的编码部分结构完整未 发生改变,但它的邻接DNA序列发生了改变,如常见的邻接序列某 些区域单个碱基的替换可使此功能产物不能表达,从而引起遗传病。 第二节基因的化学本质 研究证明,DNA是生命体的遗传物质;但在某些仅含有RNA和 蛋白质的病毒,其RNA是遗传物质。例如,烟草花叶病毒不含DNA, 仅含有一条单链的RNA。实验证实,这条单链RNA能感染宿主细胞 并繁殖后代。在整个生物界中,绝大部分生物(包括人类)基因的化 学本质是DNA。 、DNA分子组成
发现有的蛋白质可以由几条多肽链组成,因此又修正成“一个基因一 条多肽链”假说;经过 100 余年的研究,基因的概念逐渐清晰。但直 到 20 世纪 50 年代,人们对基因的认识还仅仅停留在逻辑概念阶段, 关于基因的物质基础和理化本质的认识,仍然是一个谜。首次揭开这 —谜底的是 1944 年 Avery 等人的工作,他们用实验方法直接证明了 DNA 是生物的遗传物质。1953 年 Watson 和 Crick 在前人的工作基础 上,应用现代物理学和化学的新技术,对 DNA 的分子结构进行了深 入研究,提出了著名的 DNA 分子双螺旋(double helix)结构模型。 这个模型显示 DNA 具有自我复制功能,正式揭示了遗传之谜。至此 人们认识到,基因是具有特定“遗传效应”的 DNA 片段、它决定细 胞内 RNA 和蛋白质(包括酶分子)等的合成,从而决定生物遗传性 状。 现代遗传学认为,基因是决定一定功能产物的 DNA 序列。这种 功能产物主要是蛋白质和 RNA。一个基因的结构除了编码特定功能产 物的DNA序列外,还包括对这个特定产物表达所需的邻接DNA 序列。 在对某些遗传病的家系研究中发现,虽然基因的编码部分结构完整未 发生改变,但它的邻接 DNA 序列发生了改变,如常见的邻接序列某 些区域单个碱基的替换可使此功能产物不能表达,从而引起遗传病。 第二节 基因的化学本质 研究证明,DNA 是生命体的遗传物质;但在某些仅含有 RNA 和 蛋白质的病毒,其 RNA 是遗传物质。例如,烟草花叶病毒不含 DNA, 仅含有一条单链的 RNA。实验证实,这条单链 RNA 能感染宿主细胞, 并繁殖后代。在整个生物界中,绝大部分生物(包括人类)基因的化 学本质是 DNA。 一、DNA 分子组成
组成DNA分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷 酸、脱氧核糖和含氮碱基组成。碱基有4种:腺嘌吟(A)、鸟嘌岭(G)、 胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成4种不同的 脱氧核苷酸:脱氧腺嘌呤核苷酸(dAMP,A)、脱氧鸟嘌呤核苷酸 (GMP,G)、脱氧胞嘧啶核苷酸(dCM,C)和脱氧胸腺嘧啶核苷 酸(dIMP,T)。这4种脱氧核苷酸按一定顺序排列起来构成脱氧多 核苷酸长链(DNA单链),两个相邻的脱氧核苷酸之间通过磷酸二酯 键相连接。每条脱氧核苷酸单链都有3′端和5′端。生物的遗传性 状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸 的排列是DNA遗传的核心。 、DNA分子结构 Watson和 Crick(1953)提出了DNA分子的双螺旋结构模型,阐 明了DNA空间结构的基本形式,要点如下:①DNA由两条碱基互补 的、反向平行排列的脱氧多核苷酸单链所组成,一条是5′→3′端, 另一条是3′→5′端,碱基互补的方式是A与T或T与A,C与G 或G与C相对应;②在自然情况下,绝大多数DNA分子的两条互补 链围绕·“主轴”向右盘旋形成双螺旋结构;③4种碱基(A、T、G、 C)的排列顺序在不同的DNA分子中各不相同,储存着各种生物性状 的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟 另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶) 识别并调节DNA双螺旋结构上的遗传信息是非常重要的;⑤由于 DNA链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组 合方式是无限的,可以形成多种不同的DNA分子。例如,某一DNA 分子有100个碱基对,因碱基排列组合的不同,就可以形成至少4100 种DNA分子。实际上,由于DNA分子量巨大,所以其碱基对的排列 方式可以说是多种多样,因而DNA分子也是种类繁多。在如此众多 结构复杂的DNA分子内蕴藏着生物界无穷无尽的遗传信息,决定了 形形色色、千姿百态的生命自然界
组成 DNA 分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷 酸、脱氧核糖和含氮碱基组成。碱基有 4 种:腺嘌吟(A)、鸟嘌岭(G)、 胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成 4 种不同的 脱氧核苷酸:脱氧腺嘌呤核苷酸(dAMP,A)、脱氧鸟嘌呤核苷酸 (dGMP,G)、脱氧胞嘧啶核苷酸(dCMP,C)和脱氧胸腺嘧啶核苷 酸(dTMP,T)。这 4 种脱氧核苷酸按一定顺序排列起来构成脱氧多 核苷酸长链(DNA 单链),两个相邻的脱氧核苷酸之间通过磷酸二酯 键相连接。每条脱氧核苷酸单链都有 3′端和 5′端。生物的遗传性 状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸 的排列是 DNA 遗传的核心。 二、DNA 分子结构 Watson 和 Crick(1953)提出了 DNA 分子的双螺旋结构模型,阐 明了 DNA 空间结构的基本形式,要点如下:①DNA 由两条碱基互补 的、反向平行排列的脱氧多核苷酸单链所组成,一条是 5′→3′端, 另一条是 3′→5′端,碱基互补的方式是 A 与 T 或 T 与 A,C 与 G 或 G 与 C 相对应;②在自然情况下,绝大多数 DNA 分子的两条互补 链围绕一“主轴”向右盘旋形成双螺旋结构;③4 种碱基(A、T、G、 C)的排列顺序在不同的 DNA 分子中各不相同,储存着各种生物性状 的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟; 另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶) 识别并调节 DNA 双螺旋结构上的遗传信息是非常重要的;⑤由于 DNA 链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组 合方式是无限的,可以形成多种不同的 DNA 分子。例如,某一 DNA 分子有 100 个碱基对,因碱基排列组合的不同,就可以形成至少 4 100 种 DNA 分子。实际上,由于 DNA 分子量巨大,所以其碱基对的排列 方式可以说是多种多样,因而 DNA 分子也是种类繁多。在如此众多 结构复杂的 DNA 分子内蕴藏着生物界无穷无尽的遗传信息,决定了 形形色色、千姿百态的生命自然界
第三节人类基因和基因组的结构特点 人类基因组( genome)是人的所有遗传信息的总和。人类基因组 包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。 如果不特别注明,人类基因组通常是指核基因组(图2-1) 图21人类基因组的组织结构 基因的结构 )基因的分类 随着人类基因组计划研究的深入和结构基因组学的基本完成,已 知人类基因组共有26383(≈3)万~39114(≈4)万个基因,比蚯 蚓仅多1万个,比果蝇多2万个。另外,科学家还发现与蛋白质合成 有关的基因序列只占整个基因组序列的2%。人类的基因或人类基因 组中的功能序列可分为4大类,即单一基因、基因家族、拟基因和串 联重复基因。 1.单一基因在人的基因中,25%~50%的蛋白质基因在单倍 体基因组中只有一份,称为单一基因( solitary gene)或单一序列( unique sequence 2.基因家族从已克隆的许多基因发现它们都不完全是单拷贝, 有的是重复的多拷贝,这一部分基因属于两个或更多个相似基因的家 族,称为基因家族( gene family),类同的蛋白质则组成蛋白质家族 ( protein family),其蛋白质成员由数个到数十个,个别的可达数百。 β珠蛋白基因家族包括5个功能基因:β、8、4y、qy和ε,它们分别 在生活史的不同阶段表达,具有不尽相同的功能。细胞骨架蛋白、肌 动蛋白、微管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同 一个体的不同细胞类型,呈现差别性表达,以合理搭配,发挥其生理
第三节 人类基因和基因组的结构特点 人类基因组(genome)是人的所有遗传信息的总和。人类基因组 包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。 如果不特别注明,人类基因组通常是指核基因组(图 2-1)。 图 2-1 人类基因组的组织结构 一、基因的结构 (一)基因的分类 随着人类基因组计划研究的深入和结构基因组学的基本完成,已 知人类基因组共有 2.6383(≈3)万~3.9114(≈4)万个基因,比蚯 蚓仅多 1 万个,比果蝇多 2 万个。另外,科学家还发现与蛋白质合成 有关的基因序列只占整个基因组序列的 2%。人类的基因或人类基因 组中的功能序列可分为 4 大类,即单一基因、基因家族、拟基因和串 联重复基因。 1.单一基因 在人的基因中,25%~50%的蛋白质基因在单倍 体基因组中只有一份,称为单一基因(solitary gene)或单一序列(unique sequence)。 2.基因家族 从已克隆的许多基因发现它们都不完全是单拷贝, 有的是重复的多拷贝,这一部分基因属于两个或更多个相似基因的家 族,称为基因家族(gene family),类同的蛋白质则组成蛋白质家族 (protein family),其蛋白质成员由数个到数十个,个别的可达数百。 β 珠蛋白基因家族包括 5 个功能基因:β、δ、Aγ、Gγ 和 ε,它们分别 在生活史的不同阶段表达,具有不尽相同的功能。细胞骨架蛋白、肌 动蛋白、微管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同 一个体的不同细胞类型,呈现差别性表达,以合理搭配,发挥其生理
作用。 3.拟基因在人的β珠蛋白基因家族中至少有两个区的序列w1 和ψ2与有功能的β珠蛋白基因相似,但是它没有相应的蛋白质产生, 为拟基因或假基因( pseudogene)。拟基因是一种畸变基因,即核苷酸 序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入 以致不能表达,所以没有功能。 4.串联重复基因45 SIrNa、5SRNA、各种tRNA基因以及蛋 白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重 复基因( tandemly repeatd genes)。它们不同于成倍基因,编码了同一 种或近乎同一种的RNA或蛋白质,rRNA、tRNA基因的每个拷贝完 全或几乎完全相同,但在基因间的间隔DNA( linker dna)相差很大。 组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同 (二)断裂基因 真核生物的结构基因是断裂基因(图2-2),由编码的外显子和非 编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小 也不同,例如,导致杜氏肌营养不良症( Duchenne muscular dystrophy, DMD)基因 dystrophin基因组全长25Mb,是目前已知人类最大的基 因,由大约由80个外显子和相应的内含子组成,cDNA全长为 l10bp,编码分子量为427000的蛋白质,从 dystrophin转录形成一 条完整的mRNA分子需要16小时 图2-2断裂基因的结构及其表达 断裂基因中的内含子和外显子的关系不完全是固定不变的,有时 会出现这样的情况,即在同一条DNA分子上的某一段DNA顺序,在 作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多 肽链的基因时是内含子,这是由于mRNA剪接加工的方式不同所致。 结果使同一个基因(确切地说是同一段DNA顺序)产生两条或者两 条以上的mRNA链。这在真核生物基因的表达中,由于一个基因的内 含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因
作用。 3.拟基因 在人的 β 珠蛋白基因家族中至少有两个区的序列 ψβl 和 ψβ2与有功能的 β 珠蛋白基因相似,但是它没有相应的蛋白质产生, 为拟基因或假基因(pseudogene)。拟基因是一种畸变基因,即核苷酸 序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入 以致不能表达,所以没有功能。 4.串联重复基因 45SrRNA、5SrRNA、各种 tRNA 基因以及蛋 白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重 复基因(tandemly repeatd genes)。它们不同于成倍基因,编码了同一 种或近乎同一种的 RNA 或蛋白质,rRNA、tRNA 基因的每个拷贝完 全或几乎完全相同,但在基因间的间隔 DNA(linker DNA)相差很大。 组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同。 (二)断裂基因 真核生物的结构基因是断裂基因(图 2-2),由编码的外显子和非 编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小 也不同,例如,导致杜氏肌营养不良症(Duchenne muscular dystrophy, DMD)基因 dystrophin 基因组全长 2.5Mb,是目前已知人类最大的基 因,由大约由 80 个外显子和相应的内含子组成,cDNA 全长为 11000bp,编码分子量为 427000 的蛋白质,从 dystrophin 转录形成一 条完整的 mRNA 分子需要 16 小时。 图 2-2 断裂基因的结构及其表达 断裂基因中的内含子和外显子的关系不完全是固定不变的,有时 会出现这样的情况,即在同一条 DNA 分子上的某一段 DNA 顺序,在 作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多 肽链的基因时是内含子,这是由于 mRNA 剪接加工的方式不同所致。 结果使同一个基因(确切地说是同一段 DNA 顺序)产生两条或者两 条以上的 mRNA 链。这在真核生物基因的表达中,由于一个基因的内 含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因
结构上一个重要特点。每个断裂基因中第一个外显子的上游和最末一 个外显子的下游,都有一段不被转录的非编码区,称为侧翼顺序 断裂基因结构中外显子-内含子的接头区是一高度保守的一致顺 序,称为外显子-内含子接头。这是形成断裂基因结构上又一个重要特 点。每一个内含子的两端具有广泛的同源性和互补性,5′端起始的 两个碱基是GT,3′端最后的两个碱基是AG,通常把这种接头形式 叫做GT-AG法则( GT-AG rule)。这两个顺序是高度保守的,在各 种真核生物基因的内含子中均相同。 、基因组的组成 人类基因组按DNA序列分类既有单拷贝序列,也有重复频率不 等的多拷贝序列 (一)单拷贝序列 又称非重复序列。在基因组中仅有单一拷贝或少数几个拷贝,单 拷贝序列的长度在800bp~1000之间,其中有些是编码细胞中各种 蛋白质和酶的结构基因。单拷贝或低拷贝DNA序列可占到人类基因 组的60%~70% (二)重复多拷贝序列 重复多拷贝序列有的较短,有的较长,分散地穿插于整个基因组, 这些重复DNA是通过变性、复性实验而被发现的,重复DNA的复性 速度较非重复DNA快。根据复性的速度,又可分为简单序列DNA和 中度重复DNA。 1.简单序列DNA简单序列DNA( simple-sequence DNA)以5bp、 10bp或20bp、200bp为一个重复单位,它们串联重复很多次,约占整 个基因组的10%~15%,大多数重复次数多(高度重复),长度可达 10bp,即为简单序列DNA或卫星DNA( satellite dna)。通过原位 分子杂交检测,已知简单序列的DNA大多数位于染色体的着丝粒或 染色体的臂和端粒区,进一步研究证明是位于染色体的异染色质区。 由15bp~100bp组成的重复单位(常富含GC),重复20~50次
结构上一个重要特点。每个断裂基因中第一个外显子的上游和最末一 个外显子的下游,都有一段不被转录的非编码区,称为侧翼顺序。 断裂基因结构中外显子-内含子的接头区是一高度保守的一致顺 序,称为外显子-内含子接头。这是形成断裂基因结构上又一个重要特 点。每一个内含子的两端具有广泛的同源性和互补性,5′端起始的 两个碱基是 GT,3′端最后的两个碱基是 AG,通常把这种接头形式 叫做 GT-AG 法则(GT-AG rule)。这两个顺序是高度保守的,在各 种真核生物基因的内含子中均相同。 二、基因组的组成 人类基因组按 DNA 序列分类既有单拷贝序列,也有重复频率不 等的多拷贝序列。 (一)单拷贝序列 又称非重复序列。在基因组中仅有单一拷贝或少数几个拷贝,单 拷贝序列的长度在 800bp~1000bp 之间,其中有些是编码细胞中各种 蛋白质和酶的结构基因。单拷贝或低拷贝 DNA 序列可占到人类基因 组的 60%~70%。 (二)重复多拷贝序列 重复多拷贝序列有的较短,有的较长,分散地穿插于整个基因组, 这些重复 DNA 是通过变性、复性实验而被发现的,重复 DNA 的复性 速度较非重复 DNA 快。根据复性的速度,又可分为简单序列 DNA 和 中度重复 DNA。 1.简单序列 DNA 简单序列 DNA(simple-sequence DNA)以 5bp、 10bp 或 20bp、200bp 为一个重复单位,它们串联重复很多次,约占整 个基因组的 10%~15%,大多数重复次数多(高度重复),长度可达 105bp,即为简单序列 DNA 或卫星 DNA(satellite DNA)。通过原位 分子杂交检测,已知简单序列的 DNA 大多数位于染色体的着丝粒或 染色体的臂和端粒区,进一步研究证明是位于染色体的异染色质区。 由 15bp~100bp 组成的重复单位(常富含 GC),重复 20~50 次
形成的kb~5kb的短DNA,叫做小卫星DNA( minisatellite dna), 又叫做可变数目串联重复( variable number of tandem repeats,VNTR), 比上述的卫星DNA(105bp)短。而在基因组的间隔序列和内含子等 非编码区内,广泛存在着与小卫星DNA相似的一类小重复单位,重 复序列为bp~6bp,称为微卫星DNA( microsatellite dNA)或STR 如(A)n/(T)n、(CA)n/(TG)n、(CT)n、(AG)n等。由 于这些微卫星DNA区域在人类基因组中出现的数目和频率不同,表 现为多态性,为人类遗传分析提供了大量的多态遗传标志,其多态信 息量大于 RFLPs,可用于基因定位、群体进化以及基因诊断等研究。 近年来在脆性ⅹ染色体综合征、脊髓小脑性共济失调等疾病中发现微 卫星DNA如(CAG)n、(CTG)n等的不稳定性,往往发生三核苷 酸重复扩增突变。 2.中度重复DNA和可动DNA因子中度重复DNA( intermediate repeat dnA)是以不同的量分布于整个基因组的不同部位。这些间隔 的DNA长度可短至100bp~500bp,称为短分散元件( short interspersed element),也可长达600bp~7000bp,称为长分散元件(long interspersed element),占整个基因组的25%~40% Ah家族( Alu family)是短分散元件典型的例子,是人类基因组 含量最丰富的中度重复顺序,占基因组总DNA含量的3%~6%,长 达300bp,在一个基因组中重复30万~50万次。在Ah序列内含有 个限制性内切酶AlI的特异性识别位点AGCT,因此这一序列称为 Ah序列,它可被AhI酶裂解为一个170bp和130bp的两个片段。研 究表明神经母细胞纤维瘤发生是由于NF1抑癌基因突变所致,发现 患者的1对NF1等位基因之一有一新的Ah序列,使这一NF1基因 失活,当另一个NF1基因发生突变后,遂造成肿瘤的发生。某些隐性 遗传病也是由于Al序列插入到外显子中,致使蛋白质编码区的结构 改变,出现临床症状。 KmⅠ家族( Kpn I family)是长分散元件的典型例子,是中度 重复顺序中仅次于Ah家族的第二大家族,用限制性内切酶KmnⅠ消 化,可分解成四个长度不等的片段,分别是12、1.5、18和19kb
形成的 lkb~5kb 的短 DNA,叫做小卫星 DNA(minisateliite DNA), 又叫做可变数目串联重复(variable number of tandem repeats,VNTR), 比上述的卫星 DNA(105bp)短。而在基因组的间隔序列和内含子等 非编码区内,广泛存在着与小卫星 DNA 相似的一类小重复单位,重 复序列为 lbp~6bp,称为微卫星 DNA(microsatellite DNA)或 STR, 如(A)n/(T)n、(CA)n/(TG)n、(CT)n、(AG)n 等。由 于这些微卫星 DNA 区域在人类基因组中出现的数目和频率不同,表 现为多态性,为人类遗传分析提供了大量的多态遗传标志,其多态信 息量大于 RFLPs,可用于基因定位、群体进化以及基因诊断等研究。 近年来在脆性 X 染色体综合征、脊髓小脑性共济失调等疾病中发现微 卫星 DNA 如(CAG)n、(CTG)n 等的不稳定性,往往发生三核苷 酸重复扩增突变。 2.中度重复DNA和可动DNA 因子 中度重复DNA(intermediate repeat DNA)是以不同的量分布于整个基因组的不同部位。这些间隔 的 DNA 长度可短至100bp~500bp,称为短分散元件(short interspersed element),也可长达 6000bp ~7000bp ,称为长分散元件(long interspersed element),占整个基因组的 25%~40%。 Alu 家族(Alu family)是短分散元件典型的例子,是人类基因组 含量最丰富的中度重复顺序,占基因组总 DNA 含量的 3%~6%,长 达 300bp,在一个基因组中重复 30 万~50 万次。在 Alu 序列内含有一 个限制性内切酶 AluⅠ的特异性识别位点 AGCT,因此这一序列称为 Alu 序列,它可被 AluⅠ酶裂解为一个 170bp 和 130bp 的两个片段。研 究表明神经母细胞纤维瘤发生是由于 NF1 抑癌基因突变所致,发现一 患者的 1 对 NF1 等位基因之一有一新的 Alu 序列,使这一 NF1 基因 失活,当另一个 NF1 基因发生突变后,遂造成肿瘤的发生。某些隐性 遗传病也是由于 Alu 序列插入到外显子中,致使蛋白质编码区的结构 改变,出现临床症状。 KpnⅠ家族(KpnⅠ family)是长分散元件的典型例子,是中度 重复顺序中仅次于 Alu 家族的第二大家族,用限制性内切酶 KpnⅠ消 化,可分解成四个长度不等的片段,分别是 1.2、1.5、1.8 和 1.9kb
即所谓的KnI家族,形成6.5kb的中度重复顺序,拷贝数为3000~ 4800个。KmI家族成员顺序比Ah家族长,散在分布,约占人体基 因组的3%~6%。其功能不清。 第四节基因的生物学特性 DNA分子中碱基对的排列顺序蕴藏着遗传信息,决定了基因的基 本功能和特性。基因复制与表达构成了基因的主要功能。 The Gene for。oo The phrase current in genetics that most plainly do violence to nderstanding begin the gene for": the gene for breast cancer, the gene for hypercholesterolaemia, the gene for schizophrenia, the gene for homosexuality, and so on. We know of course that there are no single genes for such things. We need to revive and put into public use the term allele Thus, the gene for breast cancer"is rather the allele, the gene defect-one of several -that increased odds that a woman will get breast cancer. the gene for"does, of course, have a real meaning: the enzyme or control element that the unmutated gene, the wild-type allele, specifies. But often, as yet, we do not know what the normal gene is for 、遗传信息的储存单位 在DNA的脱氧核苷酸长链上每三个相邻碱基序列构成一个三联 体,每个三联体密码能编码某种氨基酸,所以三联体( triplet)是遗传 信息的具体表现形式。因而三联体又称三联体密码( triplet code)、遗 传密码( genetic code)或密码子( codon)。 (一)遗传密码
即所谓的 KpnⅠ家族,形成 6.5kb 的中度重复顺序,拷贝数为 3000~ 4800 个。KpnⅠ家族成员顺序比 Alu 家族长,散在分布,约占人体基 因组的 3%~6%。其功能不清。 第四节 基因的生物学特性 DNA 分子中碱基对的排列顺序蕴藏着遗传信息,决定了基因的基 本功能和特性。基因复制与表达构成了基因的主要功能。 The Gene for。。。。。。 The phrase current in genetics that most plainly do violence to understanding begin “the gene for”: the gene for breast cancer, the gene for hypercholesterolaemia, the gene for schizophrenia, the gene for homosexuality, and so on. We know of course that there are no single genes for such things. We need to revive and put into public use the term ‘allele’. Thus, “the gene for breast cancer” is rather the allele, the gene defect – one of several – that increased odds that a woman will get breast cancer. “the gene for” does, of course, have a real meaning: the enzyme or control element that the unmutated gene, the wild-type allele, specifies. But often, as yet, we do not know what the normal gene is for. 一、遗传信息的储存单位 在 DNA 的脱氧核苷酸长链上每三个相邻碱基序列构成一个三联 体,每个三联体密码能编码某种氨基酸,所以三联体(triplet)是遗传 信息的具体表现形式。因而三联体又称三联体密码(triplet code)、遗 传密码(genetic code)或密码子(codon)。 (一)遗传密码
遗传密码的设想最早由物理学家 Gamow提出,他认为在细胞合 成蛋白质的过程中,可能存在某种密码来决定氨基酸。 Khorana等人 经过多年研究,逐步破译了编码20种氨基酸的密码子,发现4种碱 基以三联体形式组合成43,即64种遗传密码。其中,61个密码子分 别为20种氨基酸编码,其余3个不编码氨基酸,为蛋白质合成的终 止信号,即终止密码子( stop codon)。至1967年正式完成了遗传密码 表(遗传密码词典)的编制工作,不过DNA编码蛋白质是通过编码 RNA序列来实现的,所以遗传密码中的4种碱基是构成mRNA的碱 基,即A、G、C、U(尿嘧啶)(表21)。 表2-1遗传密码表 第二碱基 3 UU苯丙氨酸 氨酸 UAU酪氨酸 半胱氨酸 UUC苯丙氨酸 C丝氨酸 UAC酪氨酸 iC半胱氨酸C UA亮氨酸 亮氨酸 CG丝氨酸 UAG 色氨酸 G Trp, w) CUU CAU组氨酸 CGU精氨酸 (Pro, P) (Arg, R) 亮氨酸 CCC脯氨酸 CAC CGC精氨酸C CUA CCA脯氨酸 CAA谷氨酰胺CGA精氨酸A (Gin, Q 第 碱CUG亮氨酸 CCG脯氨酸 CAG谷氨酰胺 精氨酸G 碱 AUU AAU 天冬酰胺 (lle, D) (Thr, T) (Asn, N) AUC异亮氨酸 AAC天冬酰胺AGC丝氨酸C AAA 赖氨酸 AGA 精氨酸A (Lys, K) ACG苏氨酸 AAG 赖氨酸 AGG精氨酸G (Met. M) GUU GCU丙氨酸 GAU 天冬酰胺 GGU甘氨酸 (Ala. A) (Asp, D) GCC丙氨酸 天冬酰胺 GGO 甘氨酸C GCA丙氨酸 GAA 谷氨酸 GGA (Glu, E) GUG缬氨酸 GCG丙氨酸 GAG (二)遗传密码的特性 1.遗传密码的通用性在绝大多数情况下,遗传密码在病毒、 原核生物、真核生物乃至人类的整个生物界中都是通用的。但这种通 用性并不是绝对的,也有一些例外存在。如粒体DNA有3个遗传密
遗传密码的设想最早由物理学家 Gamow 提出,他认为在细胞合 成蛋白质的过程中,可能存在某种密码来决定氨基酸。Khorana 等人 经过多年研究,逐步破译了编码 20 种氨基酸的密码子,发现 4 种碱 基以三联体形式组合成 4 3,即 64 种遗传密码。其中,61 个密码子分 别为 20 种氨基酸编码,其余 3 个不编码氨基酸,为蛋白质合成的终 止信号,即终止密码子(stop codon)。至 1967 年正式完成了遗传密码 表(遗传密码词典)的编制工作,不过 DNA 编码蛋白质是通过编码 RNA 序列来实现的,所以遗传密码中的 4 种碱基是构成 mRNA 的碱 基,即 A、G、C、U(尿嘧啶)(表 2-l)。 表 2-l 遗传密码表 第 一 碱 基 第二碱基 第 三 碱 基 5’ U C A G 3’ U UUU 苯丙氨酸 UCU 丝氨酸 UAU 酪氨酸 UGU 半胱氨酸 U (Phe,F) (Ser,S) (Tyr, Y) (Cys,C) UUC 苯丙氨酸 UCC 丝氨酸 UAC 酪氨酸 UGC 半胱氨酸 C UUA 亮氨酸 UAA 终 止 UGA 终 止 A (Leu,L) UUG 亮氨酸 UCG 丝氨酸 UAG 终 止 UGG 色氨酸 G (Trp,W) C CUU 亮氨酸 CCU 脯氨酸 CAU 组氨酸 CGU 精 氨 酸 U (Pro,P) (His,H) (Arg,R) CUC 亮氨酸 CCC 脯氨酸 CAC 组氨酸 CGC 精 氨 酸 C CUA 亮氨酸 CCA 脯氨酸 CAA 谷氨酰胺 CGA 精 氨 酸 A (Gln,Q) CUG 亮氨酸 CCG 脯氨酸 CAG 谷氨酰胺 CGG 精 氨 酸 G A AUU 异亮氨酸 ACU 苏氨酸 AAU 天冬酰胺 AGU 丝 氨 酸 U (Ile,I) (Thr,T) (Asn,N) AUC 异亮氨酸 ACC 苏氨酸 AAC 天冬酰胺 AGC 丝 氨 酸 C AUA 异亮氨酸 ACA 苏氨酸 AAA 赖 氨酸 AGA 精 氨 酸 A (Lys,K) AUG 甲硫氨酸+起始 ACG 苏氨酸 AAG 赖 氨酸 AGG 精 氨 酸 G (Met,M) G GUU 缬氨酸 GCU 丙氨酸 GAU 天冬酰胺 GGU 甘 氨 酸 U (Val,V) (Ala,A) (Asp,D) (Gly,G) GUC 缬氨酸 GCC 丙氨酸 GAC 天冬酰胺 GGC 甘 氨 酸 C GUA 缬氨酸 GCA 丙氨酸 GAA 谷氨酸 GGA 甘 氨 酸 A (Glu,E) GUG 缬氨酸 GCG 丙氨酸 GAG 谷氨酸 GGG 甘 氨 酸 G (二)遗传密码的特性 1.遗传密码的通用性 在绝大多数情况下,遗传密码在病毒、 原核生物、真核生物乃至人类的整个生物界中都是通用的。但这种通 用性并不是绝对的,也有一些例外存在。如粒体 DNA 有 3 个遗传密
码与通用密码不同εCUA编码苏氨酸,AUA编码甲硫氨酸,UGA编 码色氨酸。 2.遗传密码的简并性在61种编码氨基酸的密码中,除甲硫氨 酸和色氨酸分别仅有一种密码子外,其余氨基酸都各被2~6个密码 子编码,这种几个遗传密码编码一种氨基酸的现象称为遗传密码的简 并性( degeneracy)。 3.起始密码和终止密码在64个密码子中,AUG显得很特殊, 若它位于mRNA的5′端的起始处,则是蛋白质合成的起始信号,称 为起始密码子( initiation codon),同时它还编码甲酰甲硫氨酸和甲硫 氨酸;若它不是位于mRNA的起始端,则只具有编码甲硫氨酸的作用 另外还有3个密码子:UAA、UAG和UGA,它们不编码任何氨基酸, 而是作为肽链合成的终止信号,称为终止密码子 二、基因通过自我复制保持遗传的连续性 基因的一个重要特性是自我复制( self-replication);基因的自我 复制也就是DNA的复制。复制发生在细胞分裂周期的S期,以DNA 分子自身为模板来合成新的DNA分子,其过程如下。 一)DNA双螺旋结构解旋为两条单股的多核苷酸链 亲代DNA分子在解旋酶的作用下。从复制起点开始,双链之间 的氢键断开,成为两条单股的多核苷酸链。复制的起点是特异的,由 特定的碱基序列组成。真核生物具有数个复制起点序列,复制从多个 位点开始同时进行。 (二)DNA分子的每一股单链都可作为模板进行自我复制 以每股单链为模板,在DNA聚合酶的作用下,逐个将单核苷酸 串联成一定长度的多聚核苷酸片段,再经DNA连接酶的作用聚合成 一条完整的DNA新链。在新链的复制过程中具有一定的特点。 1.互补性在DNA复制时,作为模板的DNA单链按照碱基互补 原则,来选择合成DNA新链的相应单核苷酸。如此合成的新链(子 链)与模板链(亲链)在一级结构(碱基序列)上是不同的,二者之
码与通用密码不同:CUA 编码苏氨酸,AUA 编码甲硫氨酸,UGA 编 码色氨酸。 2.遗传密码的简并性 在 61 种编码氨基酸的密码中,除甲硫氨 酸和色氨酸分别仅有一种密码子外,其余氨基酸都各被 2~6 个密码 子编码,这种几个遗传密码编码一种氨基酸的现象称为遗传密码的简 并性(degeneracy)。 3.起始密码和终止密码 在 64 个密码子中,AUG 显得很特殊, 若它位于 mRNA 的 5′端的起始处,则是蛋白质合成的起始信号,称 为起始密码子(initiation codon),同时它还编码甲酰甲硫氨酸和甲硫 氨酸;若它不是位于 mRNA 的起始端,则只具有编码甲硫氨酸的作用。 另外还有 3 个密码子:UAA、UAG 和 UGA,它们不编码任何氨基酸, 而是作为肽链合成的终止信号,称为终止密码子。 二、基因通过自我复制保持遗传的连续性 基因的一个重要特性是自我复制(self-replication);基因的自我 复制也就是 DNA 的复制。复制发生在细胞分裂周期的 S 期,以 DNA 分子自身为模板来合成新的 DNA 分子,其过程如下。 (一)DNA 双螺旋结构解旋为两条单股的多核苷酸链 亲代 DNA 分子在解旋酶的作用下。从复制起点开始,双链之间 的氢键断开,成为两条单股的多核苷酸链。复制的起点是特异的,由 特定的碱基序列组成。真核生物具有数个复制起点序列,复制从多个 位点开始同时进行。 (二)DNA 分子的每一股单链都可作为模板进行自我复制 以每股单链为模板,在 DNA 聚合酶的作用下,逐个将单核苷酸 串联成一定长度的多聚核苷酸片段,再经 DNA 连接酶的作用聚合成 一条完整的 DNA 新链。在新链的复制过程中具有一定的特点。 1.互补性 在 DNA 复制时,作为模板的 DNA 单链按照碱基互补 原则,来选择合成 DNA 新链的相应单核苷酸。如此合成的新链(子 链)与模板链(亲链)在一级结构(碱基序列)上是不同的,二者之