第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201806008 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180629.0847.002.html 多特征融合的ncRNA识别与其功能预测 常征,孟军,施云生,莫冯然 (大连理工大学计算机科学与技术学院,辽宁大连116023) 摘要:针对传统的基于单一特征的植物IncRNA识别的局限性,提出了融合RNA序列的开放阅读框、二级结 构以及k-mrs等多特征方法,训练高斯朴素贝叶斯、支持向量机和梯度提升决策树3种经典的分类模型,并实 现分类结果的集成,利用交叉验证对模型的性能进行了评估,整体性能优于目前较流行的CPAT、CNCI和 PLEK预测软件,在拟南芥数据集上总体的准确率达到了89%。另外,基于内源性竞争规则以及RNA结构信 息,分别对IncRNA-microRNA和microRNA-mRNA进行靶向预测、筛选,再通过整合预测数据建立互作网络,并 对网络模块中的IncRNA进行功能预测。通过GO术语分析,对与mRNA相关的IncRNA可能参与的生物调控 过程进行预测推测它们的相应功能。 关键词:IncRNA;识别;特征提取;多特征融合;机器学习;互作关系;网络构建;功能预测 中图分类号:TP391文献标志码:A文章编号:1673-4785(2018)06-0928-07 中文引用格式:常征,孟军,施云生,等.多特征融合的ncRNA识别与其功能预测.智能系统学报,2018,13(6):928-934. 英文引用格式:CHANG Zheng,MENGJun,,SHI Yunsheng,etal.LneRNA recognition by fusing multiple features and its function prediction[Jl.CAAI transactions on intelligent systems,2018,13(6):928-934. LncRNA recognition by fusing multiple features and its function prediction CHANG Zheng,MENG Jun,SHI Yunsheng,MO Fengran (School of Computer Science and Technology,Dalian University of Technology,Dalian 116023,China) Abstract:Considering the limitations of the traditional plant IncRNA identification based on a single feature,in this pa- per,a method,in which the open reading frame,secondary structure,and k-mers features of RNA sequences are integ- rated,is proposed.It involves the training of three classical classification models,Gaussian naive Bayes,support vector machines,and gradient lifting decision tree,and integrating the classification results.The performance of the method was evaluated using cross-validation,and it exhibited superior performance.The accuracy of the proposed method reached 89%when tested with the Arabidopsis thaliana dataset.Using the same dataset,the proposed method outper- formed the popular CPAT,CNCI,and PLEK prediction software.In addition,based on the endogenous competition rules and RNA structure information,target prediction and filter rules for IncRNA-microRNA and microRNA-mRNA pairs were executed,and then related tools were used to establish RNA interaction regulatory networks,and the regulat- ory relationship was analyzed to predict the functions of IncRNAs in modules.Through Gene Ontology term analysis, the possible biological regulation function of IncRNAs can be predicted,and their corresponding functions can be in- ferred. Keywords:IncRNA;identification;feature extraction;multiple features fusion;machine learning;interrelationship;net- work construction;function prediction 近年来,非编码RNA(non-coding RNA, 收稿日期:2018-06-04.网络出版日期:2018-06-29. 基金项目:国家自然科学基金项目(61472061):大连理工大学 ncRNA)识别的相关研究已成为人们关注的热 研究生教改基金项目(Jg2017015):大连理工大学大 学生创新训练项目(2018101410201011019). 点。一直以来,转录本被大家普遍认为只起到翻 通信作者:孟军.E-mail:mengjun(@dlut.edu.cn. 译蛋白质的作用,但随着人类基因组注释工作的
DOI: 10.11992/tis.201806008 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180629.0847.002.html 多特征融合的 lncRNA 识别与其功能预测 常征,孟军,施云生,莫冯然 (大连理工大学 计算机科学与技术学院,辽宁 大连 116023) 摘 要:针对传统的基于单一特征的植物 lncRNA 识别的局限性,提出了融合 RNA 序列的开放阅读框、二级结 构以及 k-mers 等多特征方法,训练高斯朴素贝叶斯、支持向量机和梯度提升决策树 3 种经典的分类模型,并实 现分类结果的集成,利用交叉验证对模型的性能进行了评估,整体性能优于目前较流行的 CPAT、CNCI 和 PLEK 预测软件,在拟南芥数据集上总体的准确率达到了 89%。另外,基于内源性竞争规则以及 RNA 结构信 息,分别对 lncRNA-microRNA 和 microRNA-mRNA 进行靶向预测、筛选,再通过整合预测数据建立互作网络,并 对网络模块中的 lncRNA 进行功能预测。通过 GO 术语分析,对与 mRNA 相关的 lncRNA 可能参与的生物调控 过程进行预测,推测它们的相应功能。 关键词:lncRNA;识别;特征提取;多特征融合;机器学习;互作关系;网络构建;功能预测 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)06−0928−07 中文引用格式:常征, 孟军, 施云生, 等. 多特征融合的 lncRNA 识别与其功能预测[J]. 智能系统学报, 2018, 13(6): 928–934. 英文引用格式:CHANG Zheng, MENG Jun, SHI Yunsheng, et al. LncRNA recognition by fusing multiple features and its function prediction[J]. CAAI transactions on intelligent systems, 2018, 13(6): 928–934. LncRNA recognition by fusing multiple features and its function prediction CHANG Zheng,MENG Jun,SHI Yunsheng,MO Fengran (School of Computer Science and Technology, Dalian University of Technology, Dalian 116023, China) Abstract: Considering the limitations of the traditional plant lncRNA identification based on a single feature, in this paper, a method, in which the open reading frame, secondary structure, and k-mers features of RNA sequences are integrated, is proposed. It involves the training of three classical classification models, Gaussian naive Bayes, support vector machines, and gradient lifting decision tree, and integrating the classification results. The performance of the method was evaluated using cross-validation, and it exhibited superior performance. The accuracy of the proposed method reached 89% when tested with the Arabidopsis thaliana dataset. Using the same dataset, the proposed method outperformed the popular CPAT, CNCI, and PLEK prediction software. In addition, based on the endogenous competition rules and RNA structure information, target prediction and filter rules for lncRNA-microRNA and microRNA-mRNA pairs were executed, and then related tools were used to establish RNA interaction regulatory networks, and the regulatory relationship was analyzed to predict the functions of lncRNAs in modules. Through Gene Ontology term analysis, the possible biological regulation function of lncRNAs can be predicted, and their corresponding functions can be inferred. Keywords: lncRNA; identification; feature extraction; multiple features fusion; machine learning; interrelationship; network construction; function prediction 近年来,非编 码 RNA(non-coding RNA, ncRNA) 识别的相关研究已成为人们关注的热 点。一直以来,转录本被大家普遍认为只起到翻 译蛋白质的作用,但随着人类基因组注释工作的 收稿日期:2018−06−04. 网络出版日期:2018−06−29. 基金项目:国家自然科学基金项目 (61472061);大连理工大学 研究生教改基金项目 (Jg2017015);大连理工大学大 学生创新训练项目 (2018101410201011019). 通信作者:孟军. E-mail:mengjun@dlut.edu.cn. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
第6期 常征,等:多特征融合的IncRNA识别与其功能预测 ·929· 不断推进,研究结果表明只有大约1%~2%的基 朴素贝叶斯、支持向量机和梯度提升决策树3种 因参与了编码蛋白的工作,而以往被大家忽略 分类模型,并采用加权投票的多分类器集成方 的非编码序列也在整个生命活动中扮演着至关重 法,集成分类结果以得到更好的分类性能。利用 要的角色。这些非编码序列中,有一种长度大于 标注测序数据测试集对模型进行验证、分析并选 200t、无法编码蛋白质的转录本尤其受到关注, 择性能最好的将其作为最终分类器。提出的方法 被称为长链非编码RNA(long non-coding RNA, 通过五折交叉验证,得到了较好的性能。在功能 IncRNA)回。近年来发现IncRNA具有调节生物体 预测方面,根据IncRNA-microRNA、microRNA- 生命活动的重要作用31,而各种传统的实验方 mRNA相互作用关系,建立调控网络,利用相关 法,一方面需要花费大量时间和高额费用,另一 联的RNA预测IncRNA的功能。 方面,因为IncRNA的低表达和低保守性等原因, I基于多特征融合的IncRNA预测 在识别IncRNA方面受到不同程度的影响。研究 人员对人和动物进行了大量的实验,并且出现了 1.1数据集 具有良好鲁棒性的IncRNA识别软件。 拟南芥的生物学实验数据和基因注释信息相 RNAseq和全基因组阵列分析显示,植物体内 对比较丰富,常被广泛用于植物胁迫响应的研究 也存在大量的IncRNA,它们在植物的开花、雄性 中。本文使用的正集数据为PNRD(http:/∥struct- 不育、营养代谢、生物和非生物胁迫等生物过程 uralbiology.cau.edu.cn/PNRD)2565条具有高可信 中起着调节因子的作用。与哺乳动物相比,植 度的拟南芥IncRNA序列。负集数据是从Ref. 物ncRNA的研究起步比较晚,且多数集中在短链 Seq数据库下载的48148条mRNA序列。为了保 非编码RNA上,这为植物IncRNA识别与分析带 证正负样本均衡,从负集原始数据中随机采样出 来了困难。研究植物IncRNA将帮助生命学科的 2500条mRNA作为最终训练集,如表1所示。 工作者进一步揭示植物内部生命活动,因此深入 表1数据集信息 研究植物IncRNA并预测其功能具有非常重要的 Table 1 Dataset information 意义。 数据集 数目 数据库 目前,在计算预测IncRNA方面,许多研究工 IncRNA 2565 PNRD 作都利用机器学习算法建立预测模型,通过输入 mRNA 2500 RefSeq 各类序列特征、结构特征,构建识别IncRNA的分 类器模型。研究表明,对于IncRNA识别,通过提 1.2 开放阅读框 取开放阅读框、密码子频率偏好性、与已知蛋白 在分子遗传学中,开放阅读框(open reading 质相似度等特征作为输入,对线性回归、支持向 frame,ORF)是阅读框的一部分,具有潜在的翻译 量机以及其他模型进行训练得到的分类器具有良 能力。研究表明,mRNA的ORF覆盖率明显高 好的分类效果。近年来衍生出的预测软件多采 于IncRNA,且mRNA具有更多的完整性开放阅 用以上特征。其中,CPCm和CPAT都是通过序 读框a。首先利用TransDecoder软件包计算得到 列特征来区分编码和非编码RNA;CNCI能够将 每个序列的开放阅读框信息,然后对其分别提取 训练好的分类器运用到近亲物种的IncRNA识 完整性、ORF覆盖率以及归一化的ORF值3种特 别:PLEK可以从高通量测序的转录本中识别 征。将完整性定义为一个布尔变量bool,0代表 IncRNA。然而,大多数软件只在动物数据集上得 不存在完整性ORF,1表示存在完整性ORF。覆 到良好的验证,专门为植物IncRNA识别设计的 盖率Coverage等于所有的合法ORF(本文只考虑 软件目前还比较稀缺。 正链情况下)的长度与RNA序列长度之比,归一 随着基因组学研究的不断深入,产生了大量 化ORF Normalized_ORF是序列中ORF个数n与 未被标注的基因序列。由于生物实验方法验证基 RNA序列长度L的比值,分别定义为 因功能的代价十分昂贵,如何通过计算机方法对 ∑L 基因序列功能进行大规模预测成了近年来生物信 Coverage= (1) 息学的研究热点之一四。 为了进一步提高植物IncRNA预测的准确 Normalized_ORF=T (2) 性,基于机器学习分类算法,通过对下载的高可 式中L,代表序列中第i个ORF的长度。 信度数据提取开放阅读框、k核苷酸频率以及二 整合3种特征得到特征向量: 级结构特征等多特征融合作为输入特征,训练 VoRF=[bool Coverage Normalized_ORF] (3)
不断推进,研究结果表明只有大约 1%~2% 的基 因参与了编码蛋白的工作[1] ,而以往被大家忽略 的非编码序列也在整个生命活动中扮演着至关重 要的角色。这些非编码序列中,有一种长度大于 200 nt、无法编码蛋白质的转录本尤其受到关注, 被称为长链非编码 RNA(long non-coding RNA, lncRNA)[2]。近年来发现 lncRNA 具有调节生物体 生命活动的重要作用[3-4] ,而各种传统的实验方 法,一方面需要花费大量时间和高额费用,另一 方面,因为 lncRNA 的低表达和低保守性等原因, 在识别 lncRNA 方面受到不同程度的影响。研究 人员对人和动物进行了大量的实验,并且出现了 具有良好鲁棒性的 lncRNA 识别软件。 RNAseq 和全基因组阵列分析显示,植物体内 也存在大量的 lncRNA,它们在植物的开花、雄性 不育、营养代谢、生物和非生物胁迫等生物过程 中起着调节因子的作用[5]。与哺乳动物相比,植 物 ncRNA 的研究起步比较晚,且多数集中在短链 非编码 RNA 上,这为植物 lncRNA 识别与分析带 来了困难。研究植物 lncRNA 将帮助生命学科的 工作者进一步揭示植物内部生命活动,因此深入 研究植物 lncRNA 并预测其功能具有非常重要的 意义。 目前,在计算预测 lncRNA 方面,许多研究工 作都利用机器学习算法建立预测模型,通过输入 各类序列特征、结构特征,构建识别 lncRNA 的分 类器模型。研究表明,对于 lncRNA 识别,通过提 取开放阅读框、密码子频率偏好性、与已知蛋白 质相似度等特征作为输入,对线性回归、支持向 量机以及其他模型进行训练得到的分类器具有良 好的分类效果[6]。近年来衍生出的预测软件多采 用以上特征。其中,CPC[7]和 CPAT[8]都是通过序 列特征来区分编码和非编码 RNA;CNCI[9]能够将 训练好的分类器运用到近亲物种的 lncRNA 识 别;PLEK[10]可以从高通量测序的转录本中识别 lncRNA。 然而,大多数软件只在动物数据集上得 到良好的验证,专门为植物 lncRNA 识别设计的 软件目前还比较稀缺。 随着基因组学研究的不断深入,产生了大量 未被标注的基因序列。由于生物实验方法验证基 因功能的代价十分昂贵,如何通过计算机方法对 基因序列功能进行大规模预测成了近年来生物信 息学的研究热点之一[11]。 为了进一步提高植物 lncRNA 预测的准确 性,基于机器学习分类算法,通过对下载的高可 信度数据提取开放阅读框、k 核苷酸频率以及二 级结构特征等多特征融合[12]作为输入特征,训练 朴素贝叶斯、支持向量机和梯度提升决策树 3 种 分类模型,并采用加权投票的多分类器集成方 法,集成分类结果以得到更好的分类性能。利用 标注测序数据测试集对模型进行验证、分析并选 择性能最好的将其作为最终分类器。提出的方法 通过五折交叉验证,得到了较好的性能。在功能 预测方面,根据 lncRNA-microRNA、microRNAmRNA 相互作用关系,建立调控网络,利用相关 联的 RNA 预测 lncRNA 的功能。 1 基于多特征融合的 lncRNA 预测 1.1 数据集 拟南芥的生物学实验数据和基因注释信息相 对比较丰富,常被广泛用于植物胁迫响应的研究 中 [13]。本文使用的正集数据为 PNRD[14] (http://structuralbiology.cau.edu.cn/PNRD/) 2 565 条具有高可信 度的拟南芥 lncRNA 序列。负集数据是从 RefSeq 数据库下载的 48 148 条 mRNA 序列。为了保 证正负样本均衡,从负集原始数据中随机采样出 2 500 条 mRNA 作为最终训练集,如表 1 所示。 表 1 数据集信息 Table 1 Dataset information 数据集 数目 数据库 lncRNA 2 565 PNRD mRNA 2 500 RefSeq 1.2 开放阅读框 在分子遗传学中,开放阅读框 (open reading frame,ORF) 是阅读框的一部分,具有潜在的翻译 能力[15]。研究表明,mRNA 的 ORF 覆盖率明显高 于 lncRNA,且 mRNA 具有更多的完整性开放阅 读框[16]。首先利用 TransDecoder 软件包计算得到 每个序列的开放阅读框信息,然后对其分别提取 完整性、ORF 覆盖率以及归一化的 ORF 值 3 种特 征。将完整性定义为一个布尔变量 bool,0 代表 不存在完整性 ORF,1 表示存在完整性 ORF。覆 盖率 Coverage 等于所有的合法 ORF(本文只考虑 正链情况下) 的长度与 RNA 序列长度之比,归一 化 ORF Normalized_ORF 是序列中 ORF 个数 n 与 RNA 序列长度 L 的比值,分别定义为 Coverage = ∑n i=1 Li L (1) Normalized_ORF = n L (2) 式中 Li 代表序列中第 i 个 ORF 的长度。 整合 3 种特征得到特征向量: VORF = [bool Coverage Normalized_ORF] (3) 第 6 期 常征,等:多特征融合的 lncRNA 识别与其功能预测 ·929·
·930· 智能系统学报 第13卷 1.3二级结构 f为每种k-mer出现的频率,则得到二级结构特征 二级结构(secondary structures,.SS)是单条序 向量: 列通过碱基配对自身形成茎区和环球,与RNA的 Vkmer=[ff左f5…fa] (9) 功能息息相关,可以作为识别IncRNA的重要依 本文选择融合上述3类特征组成含90维的 据。目前,预测二级结构的计算方法分为两类: 特征集作为最终的特征向量: 基于热力学和基于系统发生学。前者认为:生物 V=[VORF Vss Vkme] (10) 体在形成高维结构的时候,将使自身达到稳态结 1.5构建分类模型 构,因此释放的能量应更多。研究表明,二级结 朴素贝叶斯方法(Naive Bayes)是基于贝叶斯 构越是稳定(释放的自由能越多)其潜在的编码 定理的监督学习算法,即简单地假设每对特征之 能力越强。同时,二级结构的稳定性与RNA序列 间相互独立。相比于其他更复杂的方法,朴素贝 中配对碱基个数以及核苷酸C和G的含量有一 叶斯学习器和分类器非常快,并且有助于解决高 定的关系。本文使用ViennaRNA!7工具包对序列 维数据问题。支持向量机是一种基于统计学习的 形成二级结构释放的自由能进行计算并得到二级 分类方法,其模型参数确定会对应到一个凸最 结构的点括号表示形式,然后从中提取出配对碱 优化问题,因此可以保证得到最优解。目前流行 基的个数以及C和G碱基的含量。归一化最小 的CPC、CNCI等软件都使用SVM作为分类器。 自由能由如下: 梯度提升决策树(gradient boost decision tree,GB- Normalized_MFE=MFE (4) DT)是对于任意可微损失函数的提升算法的泛 化,它具有强大的预测能力以及在输出空间中对 式中:MFE是释放的自由能,L是RNA序列的长度。 异常点的鲁棒性。 整合上述3个特征得到如下特征向量: 结合训练集高维度、非连续等特征,以及模 Vss [Normalized MFE n %(C+G)] (5) 型自身的鲁棒性,本文选择基于高斯分布的朴素 式中n,为配对碱基的个数。 贝叶斯模型、支持向量机以及梯度提升决策树 1.4 k-mers 3个模型进行训练。然后使用网格搜索法分别调 密码子是遗传物质编码的信息由活细胞转化 整3个分类器的超参数。并且采用加权投票分法 为蛋白质的一套规则,蛋白质为保证其某些生物 来融合上述3个分类模型的输出得到最终的预测 功能,在自然选择下会表现出对某些密码子的偏 结果。 好性。因此mRNA在密码子方面表现出一定的 1.6性能评价指标 保守性,而不编码蛋白的IncRNA其保守性较 差。所以可以使用密码子频率当作识别IncRNA 本文选择使用准确率(Accuracy,ACC)、精确 的一个特征。然而,因为无法准确定位mRNA编 率(Precison,P)、召回率(Recall,R)、F,值(F, 码区域,且IncRNA有多个编码区域,直接计算密 scor©)来评估训练出的分类模型。定义如下: TP+TN 码子频率存在一定困难。为解决以上问题,使用 ACC= (11) TN+FP+TP+FN 一个近似的解决方法:k-mers特征计算。 TP 一个k-mer具有k个核苷酸,每个核苷酸可以 P=TP+FP (12) 是A、C、G或T,k取值为1、2和3,则有4+ TP 16+64=84种模式:4个1-mer,16个2-mer,64个 R=TP+FN (13) 3-mer。使用一个长度为k的滑动窗口来匹配上 2TP F1_score =2TP+FP+FN (14) 述k-mr。滑动窗口沿RNA序列以步长为1核苷 酸进行滑动匹配,使用c,表示匹配到的次数 式中:TP指将正类预测为正类数,FN指将正类预 (i=1,2,…,84),并且为每个k-mer分配一个系数 测为负类数,FP指将负类预测为正类数,TN指将 ,从而使得每类频率对预测效果的影响一样,具 负类预测为负类数。 体如下: 2 LncRNA功能预测 f=w9,k=1,2,3,i=1,2…,84 (6) 2.1数据集 =L-k+1,k=1,2,3 (7) 1 用于构建互作网络的microRNA序列是从 wm=4六,k=1,2,3 (8) miRBase(http://www.mirbase.org/index.shtml) 式中:Sk是总的匹配次数,L为RNA序列长度, 载的427条成熟拟南芥microRNA序列。IncRNA
1.3 二级结构 二级结构 (secondary structures,SS) 是单条序 列通过碱基配对自身形成茎区和环球,与 RNA 的 功能息息相关,可以作为识别 lncRNA 的重要依 据。目前,预测二级结构的计算方法分为两类: 基于热力学和基于系统发生学。前者认为:生物 体在形成高维结构的时候,将使自身达到稳态结 构,因此释放的能量应更多。研究表明,二级结 构越是稳定 (释放的自由能越多) 其潜在的编码 能力越强。同时,二级结构的稳定性与 RNA 序列 中配对碱基个数以及核苷酸 C 和 G 的含量有一 定的关系。本文使用 ViennaRNA[17]工具包对序列 形成二级结构释放的自由能进行计算并得到二级 结构的点括号表示形式,然后从中提取出配对碱 基的个数以及 C 和 G 碱基的含量。归一化最小 自由能由如下: Normalized_MFE = MFE L (4) 式中:MFE 是释放的自由能,L 是 RNA 序列的长度。 整合上述 3 个特征得到如下特征向量: VS S = [Normalized_MFE np %(C +G)] (5) 式中 np 为配对碱基的个数。 1.4 k-mers 密码子是遗传物质编码的信息由活细胞转化 为蛋白质的一套规则,蛋白质为保证其某些生物 功能,在自然选择下会表现出对某些密码子的偏 好性。因此 mRNA 在密码子方面表现出一定的 保守性,而不编码蛋白的 lncRNA 其保守性较 差。所以可以使用密码子频率当作识别 lncRNA 的一个特征。然而,因为无法准确定位 mRNA 编 码区域,且 lncRNA 有多个编码区域,直接计算密 码子频率存在一定困难。为解决以上问题,使用 一个近似的解决方法:k-mers 特征计算。 i = 1,2,··· ,84 一个 k-mer 具有 k 个核苷酸,每个核苷酸可以 是 A、 C、 G 或 T, k 取 值 为 1、 2 和 3 , 则 有 4 + 16+64=84 种模式:4 个 1-mer,16 个 2-mer,64 个 3-mer。使用一个长度为 k 的滑动窗口来匹配上 述 k-mer。滑动窗口沿 RNA 序列以步长为 1 核苷 酸进行滑动匹配,使 用 c i 表示匹配到的次 数 ( ),并且为每个 k-mer 分配一个系数 wk,从而使得每类频率对预测效果的影响一样,具 体如下: fi = wk ci sk , k = 1,2,3, i = 1,2,··· ,84 (6) sk = L−k+1, k = 1,2,3 (7) wk = 1 4 3−k , k = 1,2,3 (8) 式中:s k 是总的匹配次数,L 为 RNA 序列长度, fi 为每种 k-mer 出现的频率,则得到二级结构特征 向量: Vk-mer = [f1 f2 f3 ··· f84] (9) 本文选择融合上述 3 类特征组成含 90 维的 特征集作为最终的特征向量: V = [VORF VSS Vk-mer] (10) 1.5 构建分类模型 朴素贝叶斯方法 (Naive Bayes) 是基于贝叶斯 定理的监督学习算法,即简单地假设每对特征之 间相互独立。相比于其他更复杂的方法,朴素贝 叶斯学习器和分类器非常快,并且有助于解决高 维数据问题。支持向量机是一种基于统计学习的 分类方法[18] ,其模型参数确定会对应到一个凸最 优化问题,因此可以保证得到最优解。目前流行 的 CPC、CNCI 等软件都使用 SVM 作为分类器。 梯度提升决策树 (gradient boost decision tree,GBDT) 是对于任意可微损失函数的提升算法的泛 化,它具有强大的预测能力以及在输出空间中对 异常点的鲁棒性。 结合训练集高维度、非连续等特征,以及模 型自身的鲁棒性,本文选择基于高斯分布的朴素 贝叶斯模型、支持向量机以及梯度提升决策树 3 个模型进行训练。然后使用网格搜索法分别调 整 3 个分类器的超参数。并且采用加权投票分法 来融合上述 3 个分类模型的输出得到最终的预测 结果。 1.6 性能评价指标 本文选择使用准确率 (Accuracy,ACC)、精确 率 (Precison,P)、召回率 (Recall,R)、F1 值 (F1_ score) 来评估训练出的分类模型。定义如下: ACC = TP+TN TN+FP+TP+FN (11) P = TP TP+FP (12) R = TP TP+FN (13) F1_score = 2TP 2TP+FP+FN (14) 式中:TP 指将正类预测为正类数,FN 指将正类预 测为负类数,FP 指将负类预测为正类数,TN 指将 负类预测为负类数。 2 LncRNA 功能预测 2.1 数据集 用于构建互作网络的 microRNA 序列是从 miRBase[19] (http://www.mirbase.org/index.shtml) 下 载的 427 条成熟拟南芥 microRNA 序列。lncRNA ·930· 智 能 系 统 学 报 第 13 卷
第6期 常征,等:多特征融合的IncRNA识别与其功能预 ·931· 以及mRNA则选用上述下载的具有高可信度的 为了验证本文提出方法的有效性,使用目前 2565条IncRNA与2500条mRNA。 比较流行的CPAT、CNCI与PLEK软件在本文采 2.2靶向预测提取互作对 用的数据集上进行分类预测,将得到的结果进行 研究证明,胁迫作用下,植物的性状将发生改 比较。CPAT使用逻辑回归模型;CNCI通过分析 变,而这个过程是由多个基因相互作用形成的, 序列的内在组成来区分蛋白编码和非蛋白转录 IncRNA也参加其中。作为竞争性内源RNA或者 本,使用ATN分数矩阵以及序列结构两类特征; microRNA内源性模拟靶标的IncRNA,可以有效 PLEK使用k-mer和滑动窗口来分析转录本,选 抑制microRNA的功能,从而间接作用mRNA影 取k-mers频率作为其特征。后两款软件都使用 响生物形状及蛋白表达。首先使用RNAhybrid2四 支持向量机作为其分类器,结果如表2所示。可 预测IncRNA-microRNA相互作用对。本文综合 以看出,本文提出的基于多特征融合的集成方法 考虑microRNA靶标结合的特征,设置RNAhy-. 在精确率上超过90%,优于CPAT、CNCI与 brid参数:最小自由能-25kcal/mol,保证种子区 PLEK;召回率分别比CPAT、CNCI、PLEK高出 域2~8位完全配对,p-value值小于0.05。然后,在 6.8%、7.4%和8.8%;F1得分也优于另外三者。这 杂交区内结合RNA结构信息进行筛选: 些结果表明本文提出的方法可以有效地预测植 1)microRNA序列5'端开始的10~12位必须 物IncRNA。 有突起点: 2)中间位置突起点只允许包含IncRNA序列 表2基于不同方法的分类结果比较 2~4个核苷酸; Table 2 Classification results comparison based on differ- 3)除了中间位置的突起外,microRNA上的错 ent methods 配和G:U配对总数少于4并且连续错配小于2。 方法 精确率 召回率 F,值 准确率 利用psRNAtarget靶向预测工具预测出mi CPAT 0.898 0.810 0.852 0.857 croRNA-mRNA相互作用对,并且筛选出有 CNCI 0.847 0.804 0.825 0.827 IncRNA靶点的microRNA靶向mRNA的数据。 PLEK 0.671 0.790 0.738 0.714 2.3构建调控网络与功能预测 Our 0.914 0.878 0.888 0.890 融合两类相互作用对,基于Cytoscape2工具 包构建初级的IncRNA-microRNA-mRNA互作网 为了进一步验证本文基于多特征融合所构建 络,然后对该网络进行模块分析,利用GO2数据 的分类模型的有效性,分别给出单独使用开放阅 库中的术语了解基因特性。这些GO术语被划分 读框、二级结构、k-mers作为特征训练分类器得 为3类:细胞成分(cellular component),分子功能 出的预测结果,交叉验证的结果如表3所示。 (molecular function)和生物过程(biological process),因此可以基于GO术语对各个模块进行 表3基于不同特征的分类结果比较 注释预测IncRNA的功能。 Table 3 Classification results comparison based on differ- ent features 3实验结果与分析 方法 精确率 召回率 F值 准确率 ORF 0.848 0.816 0.816 0.828 3.1标注数据测试集验证结果 SS 0.728 0.716 0.722 0.720 交叉验证(cross validation.,CV)是一种模型验 证技术,把给定的数据进行切分,将切分的数据 k-mers 0.828 0.794 0.810 0.814 集组合为训练集与测试集,用于验证模型的泛化 Fusion 0.914 0.878 0.888 0.890 能力,有效降低模型的过拟合问题。交叉验证方 法可分为简单交叉验证法、K折交叉验证以及留 可以看出,本文提出的方法整体的准确率为 一交叉验证。其中,应用最多的是K折交叉验 89.0%,比单独使用开放阅读框、二级结构、k- 证。标注数据即从公共数据库采集到的被验证与 mers要分别高出62%、17%、7.6%,这表明提出的 标注的序列数据。为了减少计算消耗的时间并评 方法对于识别IncRNA相较于使用单一类特征是 估分类模型的泛化性能,本文直接对分类模型在 有效的。并且可以看出,使用ORF得到的预测结 数据集上进行5折交叉验证,得到的性能效果作 果要优于其他两类,这意味着ORF在识别IncRNA 为标注数据测试集的测试结果。 上具有更好的区分度
以及 mRNA 则选用上述下载的具有高可信度的 2 565 条 lncRNA 与 2 500 条 mRNA。 2.2 靶向预测提取互作对 研究证明,胁迫作用下,植物的性状将发生改 变,而这个过程是由多个基因相互作用形成的, lncRNA 也参加其中。作为竞争性内源 RNA 或者 microRNA 内源性模拟靶标的 lncRNA,可以有效 抑制 microRNA 的功能,从而间接作用 mRNA 影 响生物形状及蛋白表达[20]。首先使用 RNAhybrid[21] 预测 lncRNA-microRNA 相互作用对。本文综合 考虑 microRNA 靶标结合的特征,设置 RNAhybrid 参数:最小自由能−25 kcal/mol,保证种子区 域 2~8 位完全配对,p-value 值小于 0.05。然后,在 杂交区内结合 RNA 结构信息[22]进行筛选: 1) microRNA 序列 5’端开始的 10~12 位必须 有突起点; 2) 中间位置突起点只允许包含 lncRNA 序列 2~4 个核苷酸; 3) 除了中间位置的突起外,microRNA 上的错 配和 G:U 配对总数少于 4 并且连续错配小于 2。 利用 psRNAtarget 靶向预测工具预测出 microRNA-mRNA 相互作用对,并且筛选出 有 lncRNA 靶点的 microRNA 靶向 mRNA 的数据。 2.3 构建调控网络与功能预测 融合两类相互作用对,基于 Cytoscape[23]工具 包构建初级的 lncRNA-microRNA-mRNA 互作网 络,然后对该网络进行模块分析,利用 GO[24]数据 库中的术语了解基因特性。这些 GO 术语被划分 为 3 类:细胞成分 (cellular component),分子功能 (molecular function) 和生物过程 (biological process),因此可以基于 GO 术语对各个模块进行 注释预测 lncRNA 的功能。 3 实验结果与分析 3.1 标注数据测试集验证结果 交叉验证 (cross validation,CV) 是一种模型验 证技术,把给定的数据进行切分,将切分的数据 集组合为训练集与测试集,用于验证模型的泛化 能力,有效降低模型的过拟合问题。交叉验证方 法可分为简单交叉验证法、K 折交叉验证以及留 一交叉验证。其中,应用最多的是 K 折交叉验 证。标注数据即从公共数据库采集到的被验证与 标注的序列数据。为了减少计算消耗的时间并评 估分类模型的泛化性能,本文直接对分类模型在 数据集上进行 5 折交叉验证,得到的性能效果作 为标注数据测试集的测试结果。 为了验证本文提出方法的有效性,使用目前 比较流行的 CPAT、CNCI 与 PLEK 软件在本文采 用的数据集上进行分类预测,将得到的结果进行 比较。CPAT 使用逻辑回归模型;CNCI 通过分析 序列的内在组成来区分蛋白编码和非蛋白转录 本,使用 ATN 分数矩阵以及序列结构两类特征; PLEK 使用 k-mer 和滑动窗口来分析转录本,选 取 k-mers 频率作为其特征。后两款软件都使用 支持向量机作为其分类器,结果如表 2 所示。可 以看出,本文提出的基于多特征融合的集成方法 在精确率上超 过 90%, 优 于 CPAT、 CNCI 与 PLEK;召回率分别比 CPAT、CNCI、PLEK 高出 6.8%、7.4% 和 8.8%;F1 得分也优于另外三者。这 些结果表明本文提出的方法可以有效地预测植 物 lncRNA。 表 2 基于不同方法的分类结果比较 Table 2 Classification results comparison based on different methods 方法 精确率 召回率 F1 值 准确率 CPAT 0.898 0.810 0.852 0.857 CNCI 0.847 0.804 0.825 0.827 PLEK 0.671 0.790 0.738 0.714 Our 0.914 0.878 0.888 0.890 为了进一步验证本文基于多特征融合所构建 的分类模型的有效性,分别给出单独使用开放阅 读框、二级结构、k-mers 作为特征训练分类器得 出的预测结果,交叉验证的结果如表 3 所示。 表 3 基于不同特征的分类结果比较 Table 3 Classification results comparison based on different features 方法 精确率 召回率 F1 值 准确率 ORF 0.848 0.816 0.816 0.828 SS 0.728 0.716 0.722 0.720 k-mers 0.828 0.794 0.810 0.814 Fusion 0.914 0.878 0.888 0.890 可以看出,本文提出的方法整体的准确率为 89.0%,比单独使用开放阅读框、二级结构、kmers 要分别高出 6.2%、17%、7.6%,这表明提出的 方法对于识别 lncRNA 相较于使用单一类特征是 有效的。并且可以看出,使用 ORF 得到的预测结 果要优于其他两类,这意味着 ORF 在识别 lncRNA 上具有更好的区分度。 第 6 期 常征,等:多特征融合的 lncRNA 识别与其功能预测 ·931·
·932· 智能系统学报 第13卷 3.2网络构建与功能预测 mRNA相互作用,但与网络中其他microRNA结 经过两个靶向预测软件包的预测并且对预 点没有联系,如图2所示;2)多microRNA相互作 测结果按上述规则进行筛选后得到数据如表4~ 用网络,不同的microRNA通过靶向同一个 表5所示。 mRNA、IncRNA形成相互作用的模块,如图3。 表4筛选后的microRNA-IncRNA靶点数据 Table 4 Filtered microRNA-IncRNA target data 靶点数量 microRNA IncRNA 108 81 70 表5筛选后的microRNA-mRNA靶点数据 Table 5 Filtered microRNA-mRNA target data 靶,点数量 microRNA mRNA 853 81 421 融合以上两类数据构建的初级调控网络如 图1所示。 调控网络中的每个模块以microRNA为中 心,形成microRNA同时与IncRNA、mRNA相互 图1拟南芥初级调控网络(三角形代表microRNA,矩 作用的调控子网络。调控子网络根据RNA作用 形代表IneRNA,圆形代表mRNA) Fig.1 Primary regulatory network of Arabidopsis(Tri- 数目和类型的不同可以分为:I)单microRNA作 angles represent microRNAs,rectangles represent 用网络,即单个microRNA作为结点与IncRNA、 IncRNAs,and circles represent mRNAs) NM001336183.1 NM121303.8 NM001036109.1 NM123412.4 NM111153.4 ath miR5020b ath miR3434 3p ● NM125759.6 NM116730.5 NM001335664.1 ◆ NM118155.2 ONATHTO01161 NONATHT002765 (a)ath_miR5020b作用网络 (b)ath_miR3434_3p作用网络 图2单microRNA作用网络 Fig.2 Single microRNA interaction network ◆ NONATHT003067 ● NM001334936.1 ■ ath miR8173 NM129364.4 M115889.5 ●+ NM117599.3 NM0034546.X a的R37a 。NM101970.4 NM001338667.1 tNM001084551.1 ●NMC339092.1 ●1 ●NM115724 ● NM001344W614 NONATHT002539 NM116145.4NM102564.3 。NM001085146.2 N05309 iR828 ● 483NM001345777.1 NM001339418.1 图3多nicroRNA作用网络 Fig.3 Multiple microRNA interaction network
3.2 网络构建与功能预测 经过两个靶向预测软件包的预测并且对预 测结果按上述规则进行筛选后得到数据如表 4~ 表 5 所示。 表 4 筛选后的 microRNA-lncRNA 靶点数据 Table 4 Filtered microRNA-lncRNA target data 靶点数量 microRNA lncRNA 108 81 70 表 5 筛选后的 microRNA-mRNA 靶点数据 Table 5 Filtered microRNA-mRNA target data 靶点数量 microRNA mRNA 853 81 421 融合以上两类数据构建的初级调控网络如 图 1 所示。 调控网络中的每个模块以 microRNA 为中 心,形成 microRNA 同时与 lncRNA、mRNA 相互 作用的调控子网络。调控子网络根据 RNA 作用 数目和类型的不同可以分为:1) 单 microRNA 作 用网络,即单个 microRNA 作为结点与 lncRNA、 mRNA 相互作用,但与网络中其他 microRNA 结 点没有联系,如图 2 所示;2) 多 microRNA 相互作 用网络,不同 的 microRNA 通过靶向同一 个 mRNA、lncRNA 形成相互作用的模块,如图 3。 图 1 拟南芥初级调控网络 (三角形代表 microRNA,矩 形代表 lncRNA,圆形代表 mRNA) Fig. 1 Primary regulatory network of Arabidopsis( Triangles represent microRNAs, rectangles represent lncRNAs, and circles represent mRNAs) (a) ath_miR5020b 作用网络 NM_121303.8 NM_111153.4 NM_001335664.1 NM_116730.5 NM_001336183.1 ath_miR5020b NONATHT001161 (b) ath_miR3434_3p 作用网络 NM_001036109.1 NM_125759.6 NM_123412.4 ath_miR3434_3p NM_118155.2 NONATHT002765 图 2 单 microRNA 作用网络 Fig. 2 Single microRNA interaction network NONATHT003067 ath_miR8173 ath_miR397a NM_001334936.1 NM_129364.4 NM_115889.5 NM_101970.4 NM_C339092.1 NM_001085146.2 ath_miR828 NM_001345777.1 NM_001339418.1 NM_124 48.3 NM_105309.4 NM_001344069.14 NONATHT002539 NM_001084551.1 NM_115772.4 NM_116145.4 NM_102564.3 NM_001338667.1 NM_00134546.1 NONATHT003189 NM_117599.3 图 3 多 microRNA 作用网络 Fig. 3 Multiple microRNA interaction network ·932· 智 能 系 统 学 报 第 13 卷
第6期 常征,等:多特征融合的IncRNA识别与其功能预测 ·933· 在构建调控网络并进行模块分析后,使用 调控功能。例如NONATHTO02539参与到氮化合 GO术语检查模块中的mRNA的功能注释,并对 物代谢、分解代谢以及生物合成过程;NONATHT 和mRNA相关的IncRNA可能参与的生物调控过 000372促进蛋白质磷酸化;NONATHT002765和 程进行预测,部分结果如表6。可以看到根据相 NONATHT002470、NONATHT002469都会影响细 关联的RNA,本文预测的IncRNA所具有的生物 胞转化的过程等。 表6 IncRNA功能预测 Table 6 IncRNA function prediction microRNA 基因 生物过程 IncRNA AT5G63640:AT1G54220: lysosomal transport;protein targeting;cellular ath miR3434 3p NONATHT002765 AT4G20360 process ath_miR844_5p AT5G24940 Protein phosphorylation NONATHTO00372 anion transport;protein localization;cellular NONATHT002470: ath miR399c 5p AT3G14460:AT3G08960 process NONATHT002469 ath_miR8173 AT1G79920:AT4G15100 protein complex assembly;proteolysis NONATHTO03067 ath miR397a AT1G79920AT1G21160 protein complex assembly;biosynthetic process NONATHT003189 AT1G21160: biosynthetic process;catabolic process;nitrogen ath_miR828 AT1G66380AT5G54670: NONATHT002539 compound metabolic process AT3G43210 4结束语 locus-specific methylation in response to low-dose irradi- ation[J].Cell reports,2015,11(3):474-485. 本文基于植物RNA序列,提取开放阅读框、 [5]CUI Jun,LUAN Yushi,JIANG Ning,et al.Comparative 二级结构和k-mers3类特征,并将它们融合成一 transcriptome analysis between resistant and susceptible 个90维的特征向量作为输入,训练朴素贝叶斯、 tomato allows the identification of IncRNA16397 confer- 支持向量机、梯度提升决策树3种机器学习模 ring resistance to Phytophthora infestans by co-expressing 型,并采用加权投票分法来集成分类结果。通过 glutaredoxin[J].The plant journal,2017,89(3):577-589. 与现有的识别软件CNCI和PLEK相比,本文提 [6]HAN Siyu,LIANG Yanchun,LI Ying,et al.Long noncod- 出方法取得了较好的性能,可以有效地识别预测 ing RNA identification:comparing machine learning based 植物IncRNA。基于内源性竞争规则,筛选 tools for long noncoding transcripts discrimination[J].Bio- IncRNA-microRNA、microRNA-mRNA相互作用数 Med research international,2016,2016:Article No. 据,并整合两类数据构建调控网络,基于互作网 8496165 络利用GO术语对各个模块的mRNA注释,进而 [7]KONG Lei,ZHANG Yong,YE Zhiqiang,et al.CPC:as- sess the protein-coding potential of transcripts using se- 通过mRNA预测IncRNA功能。未来将结合深度 quence features and support vector machine[J].Nucleic 学习技术,进一步改善预测的准确率。 acids research,2007,36(S2):W345-W349. 参考文献: [8]WANG Liguo,PARK H J,DASARI S,et al.CPAT:cod- ing-potential assessment tool using an alignment-free lo- [1]COSTA FF.Non-coding RNAs:meet thy masters[J]. gistic regression model[J].Nucleic acids research,2013, Bioassays,2010,32(7):599-608. 41(6):Article No.e74. [2]PALAZZO A F.LEE E S.Non-coding RNA:what is func- [9]SUN Liang,LUO Haitao,BU Dechao,et al.Utilizing se- tional and what is junk?[J].Frontiers in genetics,2015,6: quence intrinsic composition to classify protein-coding and Article No.2. long non-coding transcripts[J].Nucleic acids research, [3]SCHMITZ S U,GROTE P.HERRMANN B G.Mechan- 2013,41(17):Article No.e166. isms of long noncoding RNA function in development and [10]LI Aimin,ZHANG Junying,ZHOU Zhongyin.PLEK:a disease[J].Cellular and molecular life sciences,2016, tool for predicting long non-coding RNAs and messenger 73(13):2491-2509. RNAs based on an improved k-mer scheme[J].BMC [4]O'LEARY V B.OVSEPIAN S V,CARRASCOSA L G,et bioinformatics,2014,15:Article No.311. al.PARTICLE,a triplex-forming long ncRNA,regulates [11]郭杏莉,高琳,刘永轩,等.长非编码RNA生物特征研
在构建调控网络并进行模块分析后,使用 GO 术语检查模块中的 mRNA 的功能注释,并对 和 mRNA 相关的 lncRNA 可能参与的生物调控过 程进行预测,部分结果如表 6。可以看到根据相 关联的 RNA,本文预测的 lncRNA 所具有的生物 调控功能。例如 NONATHT002539 参与到氮化合 物代谢、分解代谢以及生物合成过程;NONATHT 000372 促进蛋白质磷酸化;NONATHT002765 和 NONATHT002470、NONATHT002469 都会影响细 胞转化的过程等。 表 6 lncRNA 功能预测 Table 6 lncRNA function prediction microRNA 基因 生物过程 lncRNA ath_miR3434_3p AT5G63640; AT1G54220; AT4G20360 lysosomal transport; protein targeting; cellular process NONATHT002765 ath_miR844_5p AT5G24940 Protein phosphorylation NONATHT000372 ath_miR399c_5p AT3G14460; AT3G08960 anion transport; protein localization; cellular process NONATHT002470; NONATHT002469 ath_miR8173 AT1G79920; AT4G15100 protein complex assembly; proteolysis NONATHT003067 ath_miR397a AT1G79920 AT1G21160 protein complex assembly; biosynthetic process NONATHT003189 ath_miR828 AT1G21160; AT1G66380AT5G54670; AT3G43210 biosynthetic process; catabolic process; nitrogen compound metabolic process NONATHT002539 4 结束语 本文基于植物 RNA 序列,提取开放阅读框、 二级结构和 k-mers 3 类特征,并将它们融合成一 个 90 维的特征向量作为输入,训练朴素贝叶斯、 支持向量机、梯度提升决策树 3 种机器学习模 型,并采用加权投票分法来集成分类结果。通过 与现有的识别软件 CNCI 和 PLEK 相比,本文提 出方法取得了较好的性能,可以有效地识别预测 植 物 lncRNA。基于内源性竞争规则,筛 选 lncRNA-microRNA、microRNA-mRNA 相互作用数 据,并整合两类数据构建调控网络,基于互作网 络利用 GO 术语对各个模块的 mRNA 注释,进而 通过 mRNA 预测 lncRNA 功能。未来将结合深度 学习技术,进一步改善预测的准确率。 参考文献: COSTA F F. Non-coding RNAs: meet thy masters[J]. Bioassays, 2010, 32(7): 599–608. [1] PALAZZO A F, LEE E S. Non-coding RNA: what is functional and what is junk?[J]. Frontiers in genetics, 2015, 6: Article No.2. [2] SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491–2509. [3] O’LEARY V B, OVSEPIAN S V, CARRASCOSA L G, et al. PARTICLE, a triplex-forming long ncRNA, regulates [4] locus-specific methylation in response to low-dose irradiation[J]. Cell reports, 2015, 11(3): 474–485. CUI Jun, LUAN Yushi, JIANG Ning, et al. Comparative transcriptome analysis between resistant and susceptible tomato allows the identification of lncRNA16397 conferring resistance to Phytophthora infestans by co-expressing glutaredoxin[J]. The plant journal, 2017, 89(3): 577–589. [5] HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed research international, 2016, 2016: Article No. 8496165. [6] KONG Lei, ZHANG Yong, YE Zhiqiang, et al. CPC: assess the protein-coding potential of transcripts using sequence features and support vector machine[J]. Nucleic acids research, 2007, 36(S2): W345–W349. [7] WANG Liguo, PARK H J, DASARI S, et al. CPAT: coding-potential assessment tool using an alignment-free logistic regression model[J]. Nucleic acids research, 2013, 41(6): Article No.e74. [8] SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): Article No.e166. [9] LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK: a tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: Article No.311. [10] [11] 郭杏莉, 高琳, 刘永轩, 等. 长非编码 RNA 生物特征研 第 6 期 常征,等:多特征融合的 lncRNA 识别与其功能预测 ·933·
·934· 智能系统学报 第13卷 究与分析U.科学通报,2013,58(27):2779-2786 long noncoding RNA controls muscle differentiation by GUO Xingli,GAO Lin,LIU Yongxuan,et al.Research functioning as a Competing Endogenous RNA[J].Cell and analysis of biocharacteristics of long non-coding 2011,147(2):358-369 RNAs[J].Chinese science bulletin,2013,58(27): [21]KRUGER J.REHMSMEIER M.RNAhybrid:microRNA 2779-2786. target prediction easy,fast and flexible[J].Nucleic acids [12]李同宇,李卫军,罩鸿.基于特征融合的人脸图像性别 research.2006.34(S2:W451-W454. 识别).智能系统学报,2013,8(6):505-511. [22]WU Huajun,WANG Zhimin,WANG Meng,et al.Wide- LI Tongyu,LI Weijun,QIN Hong.Facial image gender spread long noncoding RNAs as endogenous target mim- recognition method based on feature fusion[J].CAAI ics for microRNAs in plants[J].Plant physiology,2013, transactions on intelligent systems,2013,8(6):505-511. 161(4):1875-1884. [13]KARIM S.Exploring plant tolerance to biotic and abiotic [23]SHANNON P,MARKIEL A,OZIER O,et al.Cytoscape: stresses[D].Uppsala,Sweden:Swedish University of Ag- a software environment for integrated models of bio- ricultural Sciences,2007:18-23. molecular interaction networksJ].Genome research, [14]YI Xin,ZHANG Zhenhai,LING Yi,et al.PNRD:a plant 2003.13(11):2498-2504. non-coding RNA database[J].Nucleic acids research, [24]ASHBURNER M.BALL C A.BLAKE J A.et al.Gene 2015,43D1:D982-D989. ontology:tool for the unification of biology[J].Nature ge- [15]DINGER M E.PANG K C,MERCER T R,et al.Differ- netics,,2000,25(1):25-29 entiating protein-coding and noncoding RNA:challenges 作者简介: and ambiguities[J].PLoS computational biology,2008, 常征,男,1995年生,硕士研究 4(11):Article No.e1000176. 生,主要研究方向为机器学习、数据挖 [16]FRITH M C,BAILEY T L,KASUKAWA T,et al.Dis- 掘和生物信息。 crimination of non-protein-coding transcripts from pro- tein-coding mRNA[J].RNA biology,2006,3(1):40-48. [17]LORENZ R,BERNHART S H,HONER ZU SIEDER- DISSEN C,et al.ViennaRNA package 2.0[J].Al- gorithms for molecular biology,2011,6:Article No.26. 孟军,女,1964年生,教授,博士 [18]王振武,孙佳骏,尹成峰.改进粒子群算法优化的支持 生导师,博士,主要研究方向为机器学 向量机及其应用[J】.哈尔滨工程大学学报,2016, 习、数据挖掘和大数据处理。主持参 与国家自然科学基金、国家重大专项」 37(12):1728-1733. 教育部专项和省自然基金等项目。在 WANG Zhenwu,SUN Jiajun,YIN Chengfeng.A support 国际SCI收录和国内核心期刊发表学 vector machine based on an improved particle swarm op- 术论文70余篇。 timization algorithm and its application[J].Journal of Harbin engineering university,2016,37(12):1728-1733. 施云生,男,1994年生,硕土研究 生,主要研究方向为机器学习、数据挖 [19]GRIFFITHS-JONES S,GROCOCK R J,VAN DON- 掘和生物信息。 GEN S,et al.miRBase:microRNA sequences,targets and gene nomenclature[J].Nucleic acids research,2006, 34(S1):D140-D144 [20]CESANA M,CACCHIARELLI D,LEGNINI I,et al.A
究与分析[J]. 科学通报, 2013, 58(27): 2779–2786. GUO Xingli, GAO Lin, LIU Yongxuan, et al. Research and analysis of biocharacteristics of long non-coding RNAs[J]. Chinese science bulletin, 2013, 58(27): 2779–2786. 李同宇, 李卫军, 覃鸿. 基于特征融合的人脸图像性别 识别[J]. 智能系统学报, 2013, 8(6): 505–511. LI Tongyu, LI Weijun, QIN Hong. Facial image gender recognition method based on feature fusion[J]. CAAI transactions on intelligent systems, 2013, 8(6): 505–511. [12] KARIM S. Exploring plant tolerance to biotic and abiotic stresses[D]. Uppsala, Sweden: Swedish University of Agricultural Sciences, 2007: 18–23. [13] YI Xin, ZHANG Zhenhai, LING Yi, et al. PNRD: a plant non-coding RNA database[J]. Nucleic acids research, 2015, 43(D1): D982–D989. [14] DINGER M E, PANG K C, MERCER T R, et al. Differentiating protein-coding and noncoding RNA: challenges and ambiguities[J]. PLoS computational biology, 2008, 4(11): Article No.e1000176. [15] FRITH M C, BAILEY T L, KASUKAWA T, et al. Discrimination of non-protein-coding transcripts from protein-coding mRNA[J]. RNA biology, 2006, 3(1): 40–48. [16] LORENZ R, BERNHART S H, HÖNER ZU SIEDERDISSEN C, et al. ViennaRNA package 2.0[J]. Algorithms for molecular biology, 2011, 6: Article No.26. [17] 王振武, 孙佳骏, 尹成峰. 改进粒子群算法优化的支持 向量机及其应用[J]. 哈尔滨工程大学学报, 2016, 37(12): 1728–1733. WANG Zhenwu, SUN Jiajun, YIN Chengfeng. A support vector machine based on an improved particle swarm optimization algorithm and its application[J]. Journal of Harbin engineering university, 2016, 37(12): 1728–1733. [18] GRIFFITHS-JONES S, GROCOCK R J, VAN DONGEN S, et al. miRBase: microRNA sequences, targets and gene nomenclature[J]. Nucleic acids research, 2006, 34(S1): D140–D144. [19] [20] CESANA M, CACCHIARELLI D, LEGNINI I, et al. A long noncoding RNA controls muscle differentiation by functioning as a Competing Endogenous RNA[J]. Cell, 2011, 147(2): 358–369. KRÜGER J, REHMSMEIER M. RNAhybrid: microRNA target prediction easy, fast and flexible[J]. Nucleic acids research, 2006, 34(S2): W451–W454. [21] WU Huajun, WANG Zhimin, WANG Meng, et al. Widespread long noncoding RNAs as endogenous target mimics for microRNAs in plants[J]. Plant physiology, 2013, 161(4): 1875–1884. [22] SHANNON P, MARKIEL A, OZIER O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]. Genome research, 2003, 13(11): 2498–2504. [23] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology: tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25–29. [24] 作者简介: 常征,男,1995 年生,硕士研究 生,主要研究方向为机器学习、数据挖 掘和生物信息。 孟军,女,1964 年生,教授,博士 生导师,博士,主要研究方向为机器学 习、数据挖掘和大数据处理。主持参 与国家自然科学基金、国家重大专项、 教育部专项和省自然基金等项目。在 国际 SCI 收录和国内核心期刊发表学 术论文 70 余篇。 施云生,男,1994 年生,硕士研究 生,主要研究方向为机器学习、数据挖 掘和生物信息。 ·934· 智 能 系 统 学 报 第 13 卷