正在加载图片...
第6期 常征,等:多特征融合的IncRNA识别与其功能预测 ·929· 不断推进,研究结果表明只有大约1%~2%的基 朴素贝叶斯、支持向量机和梯度提升决策树3种 因参与了编码蛋白的工作,而以往被大家忽略 分类模型,并采用加权投票的多分类器集成方 的非编码序列也在整个生命活动中扮演着至关重 法,集成分类结果以得到更好的分类性能。利用 要的角色。这些非编码序列中,有一种长度大于 标注测序数据测试集对模型进行验证、分析并选 200t、无法编码蛋白质的转录本尤其受到关注, 择性能最好的将其作为最终分类器。提出的方法 被称为长链非编码RNA(long non-coding RNA, 通过五折交叉验证,得到了较好的性能。在功能 IncRNA)回。近年来发现IncRNA具有调节生物体 预测方面,根据IncRNA-microRNA、microRNA- 生命活动的重要作用31,而各种传统的实验方 mRNA相互作用关系,建立调控网络,利用相关 法,一方面需要花费大量时间和高额费用,另一 联的RNA预测IncRNA的功能。 方面,因为IncRNA的低表达和低保守性等原因, I基于多特征融合的IncRNA预测 在识别IncRNA方面受到不同程度的影响。研究 人员对人和动物进行了大量的实验,并且出现了 1.1数据集 具有良好鲁棒性的IncRNA识别软件。 拟南芥的生物学实验数据和基因注释信息相 RNAseq和全基因组阵列分析显示,植物体内 对比较丰富,常被广泛用于植物胁迫响应的研究 也存在大量的IncRNA,它们在植物的开花、雄性 中。本文使用的正集数据为PNRD(http:/∥struct- 不育、营养代谢、生物和非生物胁迫等生物过程 uralbiology.cau.edu.cn/PNRD)2565条具有高可信 中起着调节因子的作用。与哺乳动物相比,植 度的拟南芥IncRNA序列。负集数据是从Ref. 物ncRNA的研究起步比较晚,且多数集中在短链 Seq数据库下载的48148条mRNA序列。为了保 非编码RNA上,这为植物IncRNA识别与分析带 证正负样本均衡,从负集原始数据中随机采样出 来了困难。研究植物IncRNA将帮助生命学科的 2500条mRNA作为最终训练集,如表1所示。 工作者进一步揭示植物内部生命活动,因此深入 表1数据集信息 研究植物IncRNA并预测其功能具有非常重要的 Table 1 Dataset information 意义。 数据集 数目 数据库 目前,在计算预测IncRNA方面,许多研究工 IncRNA 2565 PNRD 作都利用机器学习算法建立预测模型,通过输入 mRNA 2500 RefSeq 各类序列特征、结构特征,构建识别IncRNA的分 类器模型。研究表明,对于IncRNA识别,通过提 1.2 开放阅读框 取开放阅读框、密码子频率偏好性、与已知蛋白 在分子遗传学中,开放阅读框(open reading 质相似度等特征作为输入,对线性回归、支持向 frame,ORF)是阅读框的一部分,具有潜在的翻译 量机以及其他模型进行训练得到的分类器具有良 能力。研究表明,mRNA的ORF覆盖率明显高 好的分类效果。近年来衍生出的预测软件多采 于IncRNA,且mRNA具有更多的完整性开放阅 用以上特征。其中,CPCm和CPAT都是通过序 读框a。首先利用TransDecoder软件包计算得到 列特征来区分编码和非编码RNA;CNCI能够将 每个序列的开放阅读框信息,然后对其分别提取 训练好的分类器运用到近亲物种的IncRNA识 完整性、ORF覆盖率以及归一化的ORF值3种特 别:PLEK可以从高通量测序的转录本中识别 征。将完整性定义为一个布尔变量bool,0代表 IncRNA。然而,大多数软件只在动物数据集上得 不存在完整性ORF,1表示存在完整性ORF。覆 到良好的验证,专门为植物IncRNA识别设计的 盖率Coverage等于所有的合法ORF(本文只考虑 软件目前还比较稀缺。 正链情况下)的长度与RNA序列长度之比,归一 随着基因组学研究的不断深入,产生了大量 化ORF Normalized_ORF是序列中ORF个数n与 未被标注的基因序列。由于生物实验方法验证基 RNA序列长度L的比值,分别定义为 因功能的代价十分昂贵,如何通过计算机方法对 ∑L 基因序列功能进行大规模预测成了近年来生物信 Coverage= (1) 息学的研究热点之一四。 为了进一步提高植物IncRNA预测的准确 Normalized_ORF=T (2) 性,基于机器学习分类算法,通过对下载的高可 式中L,代表序列中第i个ORF的长度。 信度数据提取开放阅读框、k核苷酸频率以及二 整合3种特征得到特征向量: 级结构特征等多特征融合作为输入特征,训练 VoRF=[bool Coverage Normalized_ORF] (3)不断推进,研究结果表明只有大约 1%~2% 的基 因参与了编码蛋白的工作[1] ,而以往被大家忽略 的非编码序列也在整个生命活动中扮演着至关重 要的角色。这些非编码序列中,有一种长度大于 200 nt、无法编码蛋白质的转录本尤其受到关注, 被称为长链非编码 RNA(long non-coding RNA, lncRNA)[2]。近年来发现 lncRNA 具有调节生物体 生命活动的重要作用[3-4] ,而各种传统的实验方 法,一方面需要花费大量时间和高额费用,另一 方面,因为 lncRNA 的低表达和低保守性等原因, 在识别 lncRNA 方面受到不同程度的影响。研究 人员对人和动物进行了大量的实验,并且出现了 具有良好鲁棒性的 lncRNA 识别软件。 RNAseq 和全基因组阵列分析显示,植物体内 也存在大量的 lncRNA,它们在植物的开花、雄性 不育、营养代谢、生物和非生物胁迫等生物过程 中起着调节因子的作用[5]。与哺乳动物相比,植 物 ncRNA 的研究起步比较晚,且多数集中在短链 非编码 RNA 上,这为植物 lncRNA 识别与分析带 来了困难。研究植物 lncRNA 将帮助生命学科的 工作者进一步揭示植物内部生命活动,因此深入 研究植物 lncRNA 并预测其功能具有非常重要的 意义。 目前,在计算预测 lncRNA 方面,许多研究工 作都利用机器学习算法建立预测模型,通过输入 各类序列特征、结构特征,构建识别 lncRNA 的分 类器模型。研究表明,对于 lncRNA 识别,通过提 取开放阅读框、密码子频率偏好性、与已知蛋白 质相似度等特征作为输入,对线性回归、支持向 量机以及其他模型进行训练得到的分类器具有良 好的分类效果[6]。近年来衍生出的预测软件多采 用以上特征。其中,CPC[7]和 CPAT[8]都是通过序 列特征来区分编码和非编码 RNA;CNCI[9]能够将 训练好的分类器运用到近亲物种的 lncRNA 识 别;PLEK[10]可以从高通量测序的转录本中识别 lncRNA。 然而,大多数软件只在动物数据集上得 到良好的验证,专门为植物 lncRNA 识别设计的 软件目前还比较稀缺。 随着基因组学研究的不断深入,产生了大量 未被标注的基因序列。由于生物实验方法验证基 因功能的代价十分昂贵,如何通过计算机方法对 基因序列功能进行大规模预测成了近年来生物信 息学的研究热点之一[11]。 为了进一步提高植物 lncRNA 预测的准确 性,基于机器学习分类算法,通过对下载的高可 信度数据提取开放阅读框、k 核苷酸频率以及二 级结构特征等多特征融合[12]作为输入特征,训练 朴素贝叶斯、支持向量机和梯度提升决策树 3 种 分类模型,并采用加权投票的多分类器集成方 法,集成分类结果以得到更好的分类性能。利用 标注测序数据测试集对模型进行验证、分析并选 择性能最好的将其作为最终分类器。提出的方法 通过五折交叉验证,得到了较好的性能。在功能 预测方面,根据 lncRNA-microRNA、microRNA￾mRNA 相互作用关系,建立调控网络,利用相关 联的 RNA 预测 lncRNA 的功能。 1 基于多特征融合的 lncRNA 预测 1.1 数据集 拟南芥的生物学实验数据和基因注释信息相 对比较丰富,常被广泛用于植物胁迫响应的研究 中 [13]。本文使用的正集数据为 PNRD[14] (http://struct￾uralbiology.cau.edu.cn/PNRD/) 2 565 条具有高可信 度的拟南芥 lncRNA 序列。负集数据是从 Ref￾Seq 数据库下载的 48 148 条 mRNA 序列。为了保 证正负样本均衡,从负集原始数据中随机采样出 2 500 条 mRNA 作为最终训练集,如表 1 所示。 表 1 数据集信息 Table 1 Dataset information 数据集 数目 数据库 lncRNA 2 565 PNRD mRNA 2 500 RefSeq 1.2 开放阅读框 在分子遗传学中,开放阅读框 (open reading frame,ORF) 是阅读框的一部分,具有潜在的翻译 能力[15]。研究表明,mRNA 的 ORF 覆盖率明显高 于 lncRNA,且 mRNA 具有更多的完整性开放阅 读框[16]。首先利用 TransDecoder 软件包计算得到 每个序列的开放阅读框信息,然后对其分别提取 完整性、ORF 覆盖率以及归一化的 ORF 值 3 种特 征。将完整性定义为一个布尔变量 bool,0 代表 不存在完整性 ORF,1 表示存在完整性 ORF。覆 盖率 Coverage 等于所有的合法 ORF(本文只考虑 正链情况下) 的长度与 RNA 序列长度之比,归一 化 ORF Normalized_ORF 是序列中 ORF 个数 n 与 RNA 序列长度 L 的比值,分别定义为 Coverage = ∑n i=1 Li L (1) Normalized_ORF = n L (2) 式中 Li 代表序列中第 i 个 ORF 的长度。 整合 3 种特征得到特征向量: VORF = [bool Coverage Normalized_ORF] (3) 第 6 期 常征,等:多特征融合的 lncRNA 识别与其功能预测 ·929·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有