《医学遗传学》课程教学资源（教材讲义）第二章人类基因.doc_大学文库

第二章人类基因基因（gene）是细胞内遗传物质的结构和功能单位，它以脱氧核糖核酸（deoxyribonucleic acid，DNA）化学形式存在于染色体上。在人类，基因通过生殖细胞从亲代向子代传递。早在 1944 年，Avery 等用实验的方法就直接证明了 DNA 是生物的遗传物质。1953 年 Watson 和 Crick 在前人的工作基础上，提出了著名的 DNA 分子双螺旋结构模型，奠定了基因复杂功能的结构基础。从此，遗传学的研究在医学领域取得突飞猛进的发展。第一节基因的概念人类对基因的认识经历了一个由浅入深的历史发展过程。早在 19 世纪 60 年代，奥地利神甫孟德尔就采用豌豆作为实验材料，进行了 8 年的杂交试验研究，提出生物的性状是由遗传因子（hereditary factor）决定的，并总结出遗传因子传递的分离定律和自由组合定律。20 世纪初丹麦遗传学家 Johannsen 将遗传因子更名为基因（gene），并一直沿用至今。随后美国遗传学家摩尔根及其学生 Sturtevent、Mü11er 等通过果蝇的杂交试验证实，基因在染色体上呈直线排列，并提出了基因传递的连锁交换定律，发表了著名的《基因论》；1927 年 Müller 等人证明用人为因素（如 X 线等）可使基因发生突变；在此之前 Garrod （1908）认为人类的黑尿酸症是一种遗传病，病因是患者缺乏某种相关生化反应的酶。于是人们开始将基因与酶联系起来。1936 年 Beadle 等对果蝇（Drosophila melanogaster）朱矽眼型、朱红眼型和野生型进行研究，再次证实了基因与酶的关系。1941 年他们又根据对粗糙链抱霉（Neurospora crassa）的研究结果，提出了“一个基因决定一种酶” 的学说；然而，后来的研究揭示，基因除了决定酶之外，还决定其他蛋白质，于是有人提出了“—个基因一种蛋白质”的假说。但人们又

组成DNA分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷酸、脱氧核糖和含氮碱基组成。碱基有4种:腺嘌吟(A)、鸟嘌岭(G)、胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成4种不同的脱氧核苷酸:脱氧腺嘌呤核苷酸(dAMP,A)、脱氧鸟嘌呤核苷酸 (GMP,G)、脱氧胞嘧啶核苷酸(dCM,C)和脱氧胸腺嘧啶核苷酸(dIMP,T)。这4种脱氧核苷酸按一定顺序排列起来构成脱氧多核苷酸长链(DNA单链),两个相邻的脱氧核苷酸之间通过磷酸二酯键相连接。每条脱氧核苷酸单链都有3′端和5′端。生物的遗传性状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸的排列是DNA遗传的核心。、DNA分子结构 Watson和 Crick(1953)提出了DNA分子的双螺旋结构模型,阐明了DNA空间结构的基本形式,要点如下:①DNA由两条碱基互补的、反向平行排列的脱氧多核苷酸单链所组成,一条是5′→3′端, 另一条是3′→5′端,碱基互补的方式是A与T或T与A,C与G 或G与C相对应;②在自然情况下,绝大多数DNA分子的两条互补链围绕·“主轴”向右盘旋形成双螺旋结构;③4种碱基(A、T、G、 C)的排列顺序在不同的DNA分子中各不相同,储存着各种生物性状的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶) 识别并调节DNA双螺旋结构上的遗传信息是非常重要的;⑤由于 DNA链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组合方式是无限的,可以形成多种不同的DNA分子。例如,某一DNA 分子有100个碱基对,因碱基排列组合的不同,就可以形成至少4100 种DNA分子。实际上,由于DNA分子量巨大,所以其碱基对的排列方式可以说是多种多样,因而DNA分子也是种类繁多。在如此众多结构复杂的DNA分子内蕴藏着生物界无穷无尽的遗传信息,决定了形形色色、千姿百态的生命自然界

组成 DNA 分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷酸、脱氧核糖和含氮碱基组成。碱基有 4 种：腺嘌吟（A）、鸟嘌岭（G）、胞嘧啶（C）和胸腺嘧啶（T）。因碱基的不同，可以构成 4 种不同的脱氧核苷酸：脱氧腺嘌呤核苷酸（dAMP，A）、脱氧鸟嘌呤核苷酸（dGMP，G）、脱氧胞嘧啶核苷酸（dCMP，C）和脱氧胸腺嘧啶核苷酸（dTMP，T）。这 4 种脱氧核苷酸按一定顺序排列起来构成脱氧多核苷酸长链（DNA 单链），两个相邻的脱氧核苷酸之间通过磷酸二酯键相连接。每条脱氧核苷酸单链都有 3′端和 5′端。生物的遗传性状是以脱氧核苷酸的排列序列来储存遗传信息的。因此，脱氧核苷酸的排列是 DNA 遗传的核心。二、DNA 分子结构 Watson 和 Crick（1953）提出了 DNA 分子的双螺旋结构模型，阐明了 DNA 空间结构的基本形式，要点如下：①DNA 由两条碱基互补的、反向平行排列的脱氧多核苷酸单链所组成，一条是 5′→3′端，另一条是 3′→5′端，碱基互补的方式是 A 与 T 或 T 与 A，C 与 G 或 G 与 C 相对应；②在自然情况下，绝大多数 DNA 分子的两条互补链围绕一“主轴”向右盘旋形成双螺旋结构；③4 种碱基（A、T、G、 C）的排列顺序在不同的 DNA 分子中各不相同，储存着各种生物性状的遗传信息；④双螺旋的表面形成两条凹槽，一面宽而深，称之深沟；另一面狭而浅，称之浅沟。这两条沟，对于有特定功能的蛋白质（酶）识别并调节 DNA 双螺旋结构上的遗传信息是非常重要的；⑤由于 DNA 链通常很长，所包含的碱基数目很多，所以碱基排列顺序的组合方式是无限的，可以形成多种不同的 DNA 分子。例如，某一 DNA 分子有 100 个碱基对，因碱基排列组合的不同，就可以形成至少 4 100 种 DNA 分子。实际上，由于 DNA 分子量巨大，所以其碱基对的排列方式可以说是多种多样，因而 DNA 分子也是种类繁多。在如此众多结构复杂的 DNA 分子内蕴藏着生物界无穷无尽的遗传信息，决定了形形色色、千姿百态的生命自然界

作用。 3.拟基因在人的β珠蛋白基因家族中至少有两个区的序列w1 和ψ2与有功能的β珠蛋白基因相似,但是它没有相应的蛋白质产生, 为拟基因或假基因( pseudogene)。拟基因是一种畸变基因,即核苷酸序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入以致不能表达,所以没有功能。 4.串联重复基因45 SIrNa、5SRNA、各种tRNA基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重复基因( tandemly repeatd genes)。它们不同于成倍基因,编码了同一种或近乎同一种的RNA或蛋白质,rRNA、tRNA基因的每个拷贝完全或几乎完全相同,但在基因间的间隔DNA( linker dna)相差很大。组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同 (二)断裂基因真核生物的结构基因是断裂基因(图2-2),由编码的外显子和非编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小也不同,例如,导致杜氏肌营养不良症( Duchenne muscular dystrophy, DMD)基因 dystrophin基因组全长25Mb,是目前已知人类最大的基因,由大约由80个外显子和相应的内含子组成,cDNA全长为 l10bp,编码分子量为427000的蛋白质,从 dystrophin转录形成一条完整的mRNA分子需要16小时图2-2断裂基因的结构及其表达断裂基因中的内含子和外显子的关系不完全是固定不变的,有时会出现这样的情况,即在同一条DNA分子上的某一段DNA顺序,在作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多肽链的基因时是内含子,这是由于mRNA剪接加工的方式不同所致。结果使同一个基因(确切地说是同一段DNA顺序)产生两条或者两条以上的mRNA链。这在真核生物基因的表达中,由于一个基因的内含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因

作用。 3．拟基因在人的 β 珠蛋白基因家族中至少有两个区的序列 ψβl 和 ψβ2与有功能的 β 珠蛋白基因相似，但是它没有相应的蛋白质产生，为拟基因或假基因（pseudogene）。拟基因是一种畸变基因，即核苷酸序列同有功能的正常基因有很大的同源性，但由于突变、缺失或插入以致不能表达，所以没有功能。 4．串联重复基因 45SrRNA、5SrRNA、各种 tRNA 基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的，这类基因叫做串联重复基因（tandemly repeatd genes）。它们不同于成倍基因，编码了同一种或近乎同一种的 RNA 或蛋白质，rRNA、tRNA 基因的每个拷贝完全或几乎完全相同，但在基因间的间隔 DNA（linker DNA）相差很大。组蛋白基因家族较复杂，但每种组蛋白基因的拷贝完全相同。（二）断裂基因真核生物的结构基因是断裂基因（图 2-2），由编码的外显子和非编码的内含子组成，二者相间排列。不同基因所含内含子数目和大小也不同，例如，导致杜氏肌营养不良症（Duchenne muscular dystrophy， DMD）基因 dystrophin 基因组全长 2.5Mb，是目前已知人类最大的基因，由大约由 80 个外显子和相应的内含子组成，cDNA 全长为 11000bp，编码分子量为 427000 的蛋白质，从 dystrophin 转录形成一条完整的 mRNA 分子需要 16 小时。图 2-2 断裂基因的结构及其表达断裂基因中的内含子和外显子的关系不完全是固定不变的，有时会出现这样的情况，即在同一条 DNA 分子上的某一段 DNA 顺序，在作为编码某一条多肽链的基因时是外显子，但是它作为编码另一条多肽链的基因时是内含子，这是由于 mRNA 剪接加工的方式不同所致。结果使同一个基因（确切地说是同一段 DNA 顺序）产生两条或者两条以上的 mRNA 链。这在真核生物基因的表达中，由于一个基因的内含子成为另一个基因的外显子，产生基因的差别表达，构成断裂基因

形成的kb~5kb的短DNA,叫做小卫星DNA( minisatellite dna), 又叫做可变数目串联重复( variable number of tandem repeats,VNTR), 比上述的卫星DNA(105bp)短。而在基因组的间隔序列和内含子等非编码区内,广泛存在着与小卫星DNA相似的一类小重复单位,重复序列为bp~6bp,称为微卫星DNA( microsatellite dNA)或STR 如(A)n/(T)n、(CA)n/(TG)n、(CT)n、(AG)n等。由于这些微卫星DNA区域在人类基因组中出现的数目和频率不同,表现为多态性,为人类遗传分析提供了大量的多态遗传标志,其多态信息量大于 RFLPs,可用于基因定位、群体进化以及基因诊断等研究。近年来在脆性ⅹ染色体综合征、脊髓小脑性共济失调等疾病中发现微卫星DNA如(CAG)n、(CTG)n等的不稳定性,往往发生三核苷酸重复扩增突变。 2.中度重复DNA和可动DNA因子中度重复DNA( intermediate repeat dnA)是以不同的量分布于整个基因组的不同部位。这些间隔的DNA长度可短至100bp~500bp,称为短分散元件( short interspersed element),也可长达600bp~7000bp,称为长分散元件(long interspersed element),占整个基因组的25%~40% Ah家族( Alu family)是短分散元件典型的例子,是人类基因组含量最丰富的中度重复顺序,占基因组总DNA含量的3%~6%,长达300bp,在一个基因组中重复30万~50万次。在Ah序列内含有个限制性内切酶AlI的特异性识别位点AGCT,因此这一序列称为 Ah序列,它可被AhI酶裂解为一个170bp和130bp的两个片段。研究表明神经母细胞纤维瘤发生是由于NF1抑癌基因突变所致,发现患者的1对NF1等位基因之一有一新的Ah序列,使这一NF1基因失活,当另一个NF1基因发生突变后,遂造成肿瘤的发生。某些隐性遗传病也是由于Al序列插入到外显子中,致使蛋白质编码区的结构改变,出现临床症状。 KmⅠ家族( Kpn I family)是长分散元件的典型例子,是中度重复顺序中仅次于Ah家族的第二大家族,用限制性内切酶KmnⅠ消化,可分解成四个长度不等的片段,分别是12、1.5、18和19kb

形成的 lkb～5kb 的短 DNA，叫做小卫星 DNA（minisateliite DNA），又叫做可变数目串联重复（variable number of tandem repeats，VNTR），比上述的卫星 DNA（105bp）短。而在基因组的间隔序列和内含子等非编码区内，广泛存在着与小卫星 DNA 相似的一类小重复单位，重复序列为 lbp～6bp，称为微卫星 DNA（microsatellite DNA）或 STR，如（A）n／（T）n、（CA）n／（TG）n、（CT）n、（AG）n 等。由于这些微卫星 DNA 区域在人类基因组中出现的数目和频率不同，表现为多态性，为人类遗传分析提供了大量的多态遗传标志，其多态信息量大于 RFLPs，可用于基因定位、群体进化以及基因诊断等研究。近年来在脆性 X 染色体综合征、脊髓小脑性共济失调等疾病中发现微卫星 DNA 如（CAG）n、（CTG）n 等的不稳定性，往往发生三核苷酸重复扩增突变。 2．中度重复DNA和可动DNA 因子中度重复DNA（intermediate repeat DNA）是以不同的量分布于整个基因组的不同部位。这些间隔的 DNA 长度可短至100bp～500bp，称为短分散元件（short interspersed element），也可长达 6000bp ～7000bp ，称为长分散元件（long interspersed element），占整个基因组的 25％～40％。 Alu 家族（Alu family）是短分散元件典型的例子，是人类基因组含量最丰富的中度重复顺序，占基因组总 DNA 含量的 3%～6%，长达 300bp，在一个基因组中重复 30 万～50 万次。在 Alu 序列内含有一个限制性内切酶 AluⅠ的特异性识别位点 AGCT，因此这一序列称为 Alu 序列，它可被 AluⅠ酶裂解为一个 170bp 和 130bp 的两个片段。研究表明神经母细胞纤维瘤发生是由于 NF1 抑癌基因突变所致，发现一患者的 1 对 NF1 等位基因之一有一新的 Alu 序列，使这一 NF1 基因失活，当另一个 NF1 基因发生突变后，遂造成肿瘤的发生。某些隐性遗传病也是由于 Alu 序列插入到外显子中，致使蛋白质编码区的结构改变，出现临床症状。 KpnⅠ家族（KpnⅠ family）是长分散元件的典型例子，是中度重复顺序中仅次于 Alu 家族的第二大家族，用限制性内切酶 KpnⅠ消化，可分解成四个长度不等的片段，分别是 1.2、1.5、1.8 和 1.9kb

遗传密码的设想最早由物理学家 Gamow 提出，他认为在细胞合成蛋白质的过程中，可能存在某种密码来决定氨基酸。Khorana 等人经过多年研究，逐步破译了编码 20 种氨基酸的密码子，发现 4 种碱基以三联体形式组合成 4 3，即 64 种遗传密码。其中，61 个密码子分别为 20 种氨基酸编码，其余 3 个不编码氨基酸，为蛋白质合成的终止信号，即终止密码子（stop codon）。至 1967 年正式完成了遗传密码表（遗传密码词典）的编制工作，不过 DNA 编码蛋白质是通过编码 RNA 序列来实现的，所以遗传密码中的 4 种碱基是构成 mRNA 的碱基，即 A、G、C、U（尿嘧啶）（表 2-l）。表 2-l 遗传密码表第一碱基第二碱基第三碱基 5’ U C A G 3’ U UUU 苯丙氨酸 UCU 丝氨酸 UAU 酪氨酸 UGU 半胱氨酸 U (Phe，F) (Ser，S) (Tyr， Y) (Cys，C） UUC 苯丙氨酸 UCC 丝氨酸 UAC 酪氨酸 UGC 半胱氨酸 C UUA 亮氨酸 UAA 终止 UGA 终止 A (Leu，L) UUG 亮氨酸 UCG 丝氨酸 UAG 终止 UGG 色氨酸 G (Trp，W) C CUU 亮氨酸 CCU 脯氨酸 CAU 组氨酸 CGU 精氨酸 U （Pro，P） (His，H) (Arg，R） CUC 亮氨酸 CCC 脯氨酸 CAC 组氨酸 CGC 精氨酸 C CUA 亮氨酸 CCA 脯氨酸 CAA 谷氨酰胺 CGA 精氨酸 A (Gln，Q) CUG 亮氨酸 CCG 脯氨酸 CAG 谷氨酰胺 CGG 精氨酸 G A AUU 异亮氨酸 ACU 苏氨酸 AAU 天冬酰胺 AGU 丝氨酸 U （Ile，I）（Thr，T） (Asn，N） AUC 异亮氨酸 ACC 苏氨酸 AAC 天冬酰胺 AGC 丝氨酸 C AUA 异亮氨酸 ACA 苏氨酸 AAA 赖氨酸 AGA 精氨酸 A (Lys，K） AUG 甲硫氨酸+起始 ACG 苏氨酸 AAG 赖氨酸 AGG 精氨酸 G （Met，M） G GUU 缬氨酸 GCU 丙氨酸 GAU 天冬酰胺 GGU 甘氨酸 U （Val，V） (Ala，A） (Asp，D） (Gly，G） GUC 缬氨酸 GCC 丙氨酸 GAC 天冬酰胺 GGC 甘氨酸 C GUA 缬氨酸 GCA 丙氨酸 GAA 谷氨酸 GGA 甘氨酸 A (Glu，E） GUG 缬氨酸 GCG 丙氨酸 GAG 谷氨酸 GGG 甘氨酸 G （二）遗传密码的特性 1．遗传密码的通用性在绝大多数情况下，遗传密码在病毒、原核生物、真核生物乃至人类的整个生物界中都是通用的。但这种通用性并不是绝对的，也有一些例外存在。如粒体 DNA 有 3 个遗传密

码与通用密码不同：CUA 编码苏氨酸，AUA 编码甲硫氨酸，UGA 编码色氨酸。 2．遗传密码的简并性在 61 种编码氨基酸的密码中，除甲硫氨酸和色氨酸分别仅有一种密码子外，其余氨基酸都各被 2～6 个密码子编码，这种几个遗传密码编码一种氨基酸的现象称为遗传密码的简并性（degeneracy）。 3．起始密码和终止密码在 64 个密码子中，AUG 显得很特殊，若它位于 mRNA 的 5′端的起始处，则是蛋白质合成的起始信号，称为起始密码子（initiation codon），同时它还编码甲酰甲硫氨酸和甲硫氨酸；若它不是位于 mRNA 的起始端，则只具有编码甲硫氨酸的作用。另外还有 3 个密码子：UAA、UAG 和 UGA，它们不编码任何氨基酸，而是作为肽链合成的终止信号，称为终止密码子。二、基因通过自我复制保持遗传的连续性基因的一个重要特性是自我复制（self-replication）；基因的自我复制也就是 DNA 的复制。复制发生在细胞分裂周期的 S 期，以 DNA 分子自身为模板来合成新的 DNA 分子，其过程如下。（一）DNA 双螺旋结构解旋为两条单股的多核苷酸链亲代 DNA 分子在解旋酶的作用下。从复制起点开始，双链之间的氢键断开，成为两条单股的多核苷酸链。复制的起点是特异的，由特定的碱基序列组成。真核生物具有数个复制起点序列，复制从多个位点开始同时进行。（二）DNA 分子的每一股单链都可作为模板进行自我复制以每股单链为模板，在 DNA 聚合酶的作用下，逐个将单核苷酸串联成一定长度的多聚核苷酸片段，再经 DNA 连接酶的作用聚合成一条完整的 DNA 新链。在新链的复制过程中具有一定的特点。 1．互补性在 DNA 复制时，作为模板的 DNA 单链按照碱基互补原则，来选择合成 DNA 新链的相应单核苷酸。如此合成的新链（子链）与模板链（亲链）在一级结构（碱基序列）上是不同的，二者之

《医学遗传学》课程教学资源（教材讲义）第二章 人类基因

《医学遗传学》课程教学资源（教材讲义）第二章人类基因