正在加载图片...
·930· 智能系统学报 第13卷 1.3二级结构 f为每种k-mer出现的频率,则得到二级结构特征 二级结构(secondary structures,.SS)是单条序 向量: 列通过碱基配对自身形成茎区和环球,与RNA的 Vkmer=[ff左f5…fa] (9) 功能息息相关,可以作为识别IncRNA的重要依 本文选择融合上述3类特征组成含90维的 据。目前,预测二级结构的计算方法分为两类: 特征集作为最终的特征向量: 基于热力学和基于系统发生学。前者认为:生物 V=[VORF Vss Vkme] (10) 体在形成高维结构的时候,将使自身达到稳态结 1.5构建分类模型 构,因此释放的能量应更多。研究表明,二级结 朴素贝叶斯方法(Naive Bayes)是基于贝叶斯 构越是稳定(释放的自由能越多)其潜在的编码 定理的监督学习算法,即简单地假设每对特征之 能力越强。同时,二级结构的稳定性与RNA序列 间相互独立。相比于其他更复杂的方法,朴素贝 中配对碱基个数以及核苷酸C和G的含量有一 叶斯学习器和分类器非常快,并且有助于解决高 定的关系。本文使用ViennaRNA!7工具包对序列 维数据问题。支持向量机是一种基于统计学习的 形成二级结构释放的自由能进行计算并得到二级 分类方法,其模型参数确定会对应到一个凸最 结构的点括号表示形式,然后从中提取出配对碱 优化问题,因此可以保证得到最优解。目前流行 基的个数以及C和G碱基的含量。归一化最小 的CPC、CNCI等软件都使用SVM作为分类器。 自由能由如下: 梯度提升决策树(gradient boost decision tree,GB- Normalized_MFE=MFE (4) DT)是对于任意可微损失函数的提升算法的泛 化,它具有强大的预测能力以及在输出空间中对 式中:MFE是释放的自由能,L是RNA序列的长度。 异常点的鲁棒性。 整合上述3个特征得到如下特征向量: 结合训练集高维度、非连续等特征,以及模 Vss [Normalized MFE n %(C+G)] (5) 型自身的鲁棒性,本文选择基于高斯分布的朴素 式中n,为配对碱基的个数。 贝叶斯模型、支持向量机以及梯度提升决策树 1.4 k-mers 3个模型进行训练。然后使用网格搜索法分别调 密码子是遗传物质编码的信息由活细胞转化 整3个分类器的超参数。并且采用加权投票分法 为蛋白质的一套规则,蛋白质为保证其某些生物 来融合上述3个分类模型的输出得到最终的预测 功能,在自然选择下会表现出对某些密码子的偏 结果。 好性。因此mRNA在密码子方面表现出一定的 1.6性能评价指标 保守性,而不编码蛋白的IncRNA其保守性较 差。所以可以使用密码子频率当作识别IncRNA 本文选择使用准确率(Accuracy,ACC)、精确 的一个特征。然而,因为无法准确定位mRNA编 率(Precison,P)、召回率(Recall,R)、F,值(F, 码区域,且IncRNA有多个编码区域,直接计算密 scor©)来评估训练出的分类模型。定义如下: TP+TN 码子频率存在一定困难。为解决以上问题,使用 ACC= (11) TN+FP+TP+FN 一个近似的解决方法:k-mers特征计算。 TP 一个k-mer具有k个核苷酸,每个核苷酸可以 P=TP+FP (12) 是A、C、G或T,k取值为1、2和3,则有4+ TP 16+64=84种模式:4个1-mer,16个2-mer,64个 R=TP+FN (13) 3-mer。使用一个长度为k的滑动窗口来匹配上 2TP F1_score =2TP+FP+FN (14) 述k-mr。滑动窗口沿RNA序列以步长为1核苷 酸进行滑动匹配,使用c,表示匹配到的次数 式中:TP指将正类预测为正类数,FN指将正类预 (i=1,2,…,84),并且为每个k-mer分配一个系数 测为负类数,FP指将负类预测为正类数,TN指将 ,从而使得每类频率对预测效果的影响一样,具 负类预测为负类数。 体如下: 2 LncRNA功能预测 f=w9,k=1,2,3,i=1,2…,84 (6) 2.1数据集 =L-k+1,k=1,2,3 (7) 1 用于构建互作网络的microRNA序列是从 wm=4六,k=1,2,3 (8) miRBase(http://www.mirbase.org/index.shtml) 式中:Sk是总的匹配次数,L为RNA序列长度, 载的427条成熟拟南芥microRNA序列。IncRNA1.3 二级结构 二级结构 (secondary structures,SS) 是单条序 列通过碱基配对自身形成茎区和环球,与 RNA 的 功能息息相关,可以作为识别 lncRNA 的重要依 据。目前,预测二级结构的计算方法分为两类: 基于热力学和基于系统发生学。前者认为:生物 体在形成高维结构的时候,将使自身达到稳态结 构,因此释放的能量应更多。研究表明,二级结 构越是稳定 (释放的自由能越多) 其潜在的编码 能力越强。同时,二级结构的稳定性与 RNA 序列 中配对碱基个数以及核苷酸 C 和 G 的含量有一 定的关系。本文使用 ViennaRNA[17]工具包对序列 形成二级结构释放的自由能进行计算并得到二级 结构的点括号表示形式,然后从中提取出配对碱 基的个数以及 C 和 G 碱基的含量。归一化最小 自由能由如下: Normalized_MFE = MFE L (4) 式中:MFE 是释放的自由能,L 是 RNA 序列的长度。 整合上述 3 个特征得到如下特征向量: VS S = [Normalized_MFE np %(C +G)] (5) 式中 np 为配对碱基的个数。 1.4 k-mers 密码子是遗传物质编码的信息由活细胞转化 为蛋白质的一套规则,蛋白质为保证其某些生物 功能,在自然选择下会表现出对某些密码子的偏 好性。因此 mRNA 在密码子方面表现出一定的 保守性,而不编码蛋白的 lncRNA 其保守性较 差。所以可以使用密码子频率当作识别 lncRNA 的一个特征。然而,因为无法准确定位 mRNA 编 码区域,且 lncRNA 有多个编码区域,直接计算密 码子频率存在一定困难。为解决以上问题,使用 一个近似的解决方法:k-mers 特征计算。 i = 1,2,··· ,84 一个 k-mer 具有 k 个核苷酸,每个核苷酸可以 是 A、 C、 G 或 T, k 取 值 为 1、 2 和 3 , 则 有 4 + 16+64=84 种模式:4 个 1-mer,16 个 2-mer,64 个 3-mer。使用一个长度为 k 的滑动窗口来匹配上 述 k-mer。滑动窗口沿 RNA 序列以步长为 1 核苷 酸进行滑动匹配,使 用 c i 表示匹配到的次 数 ( ),并且为每个 k-mer 分配一个系数 wk,从而使得每类频率对预测效果的影响一样,具 体如下: fi = wk ci sk , k = 1,2,3, i = 1,2,··· ,84 (6) sk = L−k+1, k = 1,2,3 (7) wk = 1 4 3−k , k = 1,2,3 (8) 式中:s k 是总的匹配次数,L 为 RNA 序列长度, fi 为每种 k-mer 出现的频率,则得到二级结构特征 向量: Vk-mer = [f1 f2 f3 ··· f84] (9) 本文选择融合上述 3 类特征组成含 90 维的 特征集作为最终的特征向量: V = [VORF VSS Vk-mer] (10) 1.5 构建分类模型 朴素贝叶斯方法 (Naive Bayes) 是基于贝叶斯 定理的监督学习算法,即简单地假设每对特征之 间相互独立。相比于其他更复杂的方法,朴素贝 叶斯学习器和分类器非常快,并且有助于解决高 维数据问题。支持向量机是一种基于统计学习的 分类方法[18] ,其模型参数确定会对应到一个凸最 优化问题,因此可以保证得到最优解。目前流行 的 CPC、CNCI 等软件都使用 SVM 作为分类器。 梯度提升决策树 (gradient boost decision tree,GB￾DT) 是对于任意可微损失函数的提升算法的泛 化,它具有强大的预测能力以及在输出空间中对 异常点的鲁棒性。 结合训练集高维度、非连续等特征,以及模 型自身的鲁棒性,本文选择基于高斯分布的朴素 贝叶斯模型、支持向量机以及梯度提升决策树 3 个模型进行训练。然后使用网格搜索法分别调 整 3 个分类器的超参数。并且采用加权投票分法 来融合上述 3 个分类模型的输出得到最终的预测 结果。 1.6 性能评价指标 本文选择使用准确率 (Accuracy,ACC)、精确 率 (Precison,P)、召回率 (Recall,R)、F1 值 (F1_ score) 来评估训练出的分类模型。定义如下: ACC = TP+TN TN+FP+TP+FN (11) P = TP TP+FP (12) R = TP TP+FN (13) F1_score = 2TP 2TP+FP+FN (14) 式中:TP 指将正类预测为正类数,FN 指将正类预 测为负类数,FP 指将负类预测为正类数,TN 指将 负类预测为负类数。 2 LncRNA 功能预测 2.1 数据集 用于构建互作网络的 microRNA 序列是从 miRBase[19] (http://www.mirbase.org/index.shtml) 下 载的 427 条成熟拟南芥 microRNA 序列。lncRNA ·930· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有