·88 智能系统学报 第3卷 果己经在表2中给出,故不再重复 在表2中可以看出,在5个性能指标上,SML SVM算法都有一定的提高.Self-training MLSVM 表2 Yeast数据集的实验结果 5个性能指标上都是最低的,在平均精度上甚至低 Table 2 Experimental results of yeast dataset 于随机猜测.显然,Self-training MLSVM会把每次 Self-training 训练的错误累计到分类器中,不但不能提高性能,反 SML SVM SVM MLSVM 而使性能严重下降。 表3的实验结果显示,近邻数K对SML_SVM Hamming Loss 0 24778 0 011 0 27099 010 049938015 的影响不大,较好的结果是在K=2和K=5时得 到的,然而,在K取其他值时,SML_SVM变化仍然 Ranking Loss↓02389015026146h017049729h24 比较小.这说明SML_SVM对K是鲁棒的 0 neeror↓028571n02903707n0B4065649h037 最大迭代次数对SML SVM的影响比较大,从 表4可以看出,当MaxIter较小的时候,算法的性能 Coverage↓ 7775h40788220411 1069030512 是差的,随着MaxIter的增加,性能逐渐变好,当达 Average Precision t Q 7081022 0 6614021 0 435960 023 到一定限度后,增加最大迭代次数就不起作用了.事 实上,最多迭代10次就可以达到最好的性能.这说 明,SML_SVM对未标记样本数据集的内在信息的 表3K的不同取值时的实验结果 利用是有限度的,在最大后验概率准则下,避免由于 Table 3 Experimental results with different K 引入未标记样本参与训练而带来的累计训练误差 2 5 6 3.3 Genbase蛋白质功能预测分析 Genbase是生物蛋白质结构数据集1,2).训练 Hamming Loss↓02462202443502444302462024445 集有463个蛋白质样本,测试集有199个蛋白质样 Ranking Loss↓023876024680241260.23878024126 本.特征为1185维,所有的属性均为离散的.在gen base蛋白质数据集中,共有27种标记,标记均值为 One-error↓ 02879027699027808028791027809 1.35,标记密度为0.05.表5列出了若干蛋白质族 和它们对应的功能,其中PDOC X×××X表示蛋 Coverage↓ 766197.90737.70777.661917.70782 白质族」 Average Precision↑0700840.69647070080700850.70080 表5蛋白质族及其对应功能 Table 5 Protein family and its functions 实验3考察最大迭代次数对算法的影响.实验 蛋白质族 功能 中其他参数均与实验1相同.为简洁起见,仅在表4 PD0C00064 氧还原酶 给出K-3,MaxIter取不同值时,SML SVM算法 性能指标的均值」 PDOC00154 异构酶 PD0C00224 细胞活素类和增长因子 表4K=3,lax Iter取不同值时的实验结果 PDOC00343 结构蛋白质 ble 4 Experimental results with different Maxlter when K=3 PDOC00561 受体 Iteration 2 45 0 PD0C00662 DNA或RNA关联蛋白质 Hamming L0ss↓02475502477024661024624024778 PD0C00670 转移酶 Ranking Loss↓02412502402602391802387702389 PD0C00791 蛋白质分泌和衍生物 Oneerror↓ 030316028353028899028791028571 PD0C50007 水解酶 Coverage↓765987.68167.65767.66217.7775 在该实验中,参数设置同3.2节酵母菌基因功 Average Precision↑0694540699670700130.70083070081 能分析实验相同.表6~8给出实验结果.表6表明, C 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net果已经在表 2 中给出 ,故不再重复. 表 2 Yeast 数据集的实验结果 Table 2 Experimental results of yeast dataset SML_SVM SVM Self2training MLSVM Hamming Loss ↓ 01247 78 ±01011 01270 99 ±01010 01499 38 ±01015 Ranking Loss ↓ 01238 9 ±01015 01261 46 ±01017 01497 29 ±01024 One2error ↓ 01285 71 ±01029 01370 77 ±01034 01656 49 ±01037 Coverage ↓ 71777 5 ±0140 71882 2 ±01411 101690 3 ±01512 Average Precision ↑ 01700 81 ±01022 01661 4 ±01021 01435 96 ±01023 表 3 K的不同取值时的实验结果 Table 3 Experimental results with different K K 2 4 5 6 7 Hamming Loss ↓ 01246 22 01244 35 01244 43 01246 22 01244 45 Ranking Loss ↓ 01238 76 01246 8 01241 26 01238 78 01241 26 One2error ↓ 01287 9 01276 99 01278 08 01287 91 01278 09 Coverage ↓ 71661 9 71907 3 71707 7 71661 91 71707 82 Average Precision ↑01700 84 01696 47 01700 8 01700 85 01700 80 实验 3 考察最大迭代次数对算法的影响. 实验 中其他参数均与实验 1 相同. 为简洁起见 ,仅在表 4 给出 K = 3 ,MaxIter 取不同值时 ,SML_SVM 算法 性能指标的均值. 表 4 K= 3 ,MaxIter 取不同值时的实验结果 Table 4 Experimental results with different MaxIter when K= 3 Iteration 2 3 4 5 10 Hamming Loss ↓ 01247 55 01247 7 01246 61 01246 24 01247 78 Ranking Loss ↓ 01241 25 01240 26 01239 18 01238 77 01238 9 One2error ↓ 01303 16 01283 53 01288 99 01287 91 01285 71 Coverage ↓ 71659 8 71681 6 71657 6 71662 1 71777 5 Average Precision ↑01694 54 01699 67 01700 13 01700 83 01700 81 在表 2 中可以看出 ,在 5 个性能指标上 ,SML_ SVM 算法都有一定的提高. Self2training ML SVM 5 个性能指标上都是最低的 ,在平均精度上甚至低 于随机猜测. 显然 ,Self2training ML SVM 会把每次 训练的错误累计到分类器中 ,不但不能提高性能 ,反 而使性能严重下降. 表 3 的实验结果显示 ,近邻数 K 对 SML_SVM 的影响不大 ,较好的结果是在 K = 2 和 K = 5 时得 到的 ,然而 ,在 K 取其他值时 ,SML_SVM 变化仍然 比较小. 这说明 SML_SVM 对 K 是鲁棒的. 最大迭代次数对 SML_SVM 的影响比较大 ,从 表 4 可以看出 ,当 MaxIter 较小的时候 ,算法的性能 是差的 ,随着 MaxIter 的增加 ,性能逐渐变好 ,当达 到一定限度后 ,增加最大迭代次数就不起作用了. 事 实上 ,最多迭代 10 次就可以达到最好的性能. 这说 明 ,SML_SVM 对未标记样本数据集的内在信息的 利用是有限度的 ,在最大后验概率准则下 ,避免由于 引入未标记样本参与训练而带来的累计训练误差. 313 Genbase 蛋白质功能预测分析 Genbase 是生物蛋白质结构数据集[11 , 23 ] . 训练 集有 463 个蛋白质样本 ,测试集有 199 个蛋白质样 本. 特征为1 185维 ,所有的属性均为离散的. 在 gen2 base 蛋白质数据集中 ,共有 27 种标记 ,标记均值为 1135 ,标记密度为 0105. 表 5 列出了若干蛋白质族 和它们对应的功能 ,其中 PDOC ×××××表示蛋 白质族. 表 5 蛋白质族及其对应功能 Table 5 Protein family and its functions 蛋白质族 功能 PDOC00064 氧还原酶 PDOC00154 异构酶 PDOC00224 细胞活素类和增长因子 PDOC00343 结构蛋白质 PDOC00561 受体 PDOC00662 DNA 或 RNA 关联蛋白质 PDOC00670 转移酶 PDOC00791 蛋白质分泌和衍生物 PDOC50007 水解酶 在该实验中 ,参数设置同 312 节酵母菌基因功 能分析实验相同. 表 6~8 给出实验结果. 表 6 表明 , · 88 · 智 能 系 统 学 报 第 3 卷