表２实验数据集描述Ｔａｂｌｅ２Ｄｅｓｃｒｉｂｅｅｘｐｅｒｉｍｅ

正在加载图片...

第3期邵东恒，等：应用k-means算法实现标记分布学习 ·329· 表2实验数据集描述 5个人类基因数据集完全优于和它对比的算法，第4 Table 2 Describe experimental data set 个和第6个数据集也优于其他两个对比算法，并在数据集样本特征标记总体上优于第3个对比算法。整体上来看，LDLKM Yeast-alpha 2465 24 18 在基因数据集上可以取得比在其他类型数据集上 Yeast-cde 2465 24 15 更好的效果，在非基因数据集SJAFFE和Movie上的效果略微差于在基因数据集上的效果，而在Human Yeast-elu 2465 24 14 Gene数据集上LDLKM的效果与SA-IIS较为接近， SJAFFE 213 243 6 提升效果不大。这说明不同类型的数据集对我们 Human Gene 30542 36 68 的算法有着一定的影响。同时，可以进一步看到， Movie 7755 1869 J 专用化的算法SA-IIS比算法PT-Bayes和AA-BP的第1个到第3个数据集（从Yeast-alpha到效果更好，处于第二的位置。 Yeast-elu)是从酿酒酵母6的4个生物实验上收集表3数据集Yeast--alpha的实验结果的真实数据集。每个数据集总共包括2465个酵母 Table 3 The experimental results of Yeast-alpha 基因，每个基因通过24个特征表示。标记对应于离评价标准PT-Bayes AA-BP SA-IIS LDLKM 散的时间点，标记分布是每个时间点的基因表达水平。第四个数据集拓展来自一个脸部表情图像数 Cheby 0.1010 0.0361 0.0202 0.0135 据集JAF℉E,它包括来自10个日本女性的213张灰 Clark 1.17280.7221 0.3034 0.2101 度图，并利用局部二值模式]从每张图像中采集 Canbe 4.1989 2.3831 1.0140 243个特征，每张图像由60个人在6种感情上打 0.6812 分。第5个数据集Human Gene是一个大规模的真 Cosine 0.8486 0.9485 0.9881 0.9946 实数据集，来自于人类基因和疾病的关系生物实验[24】。在数据集中总共包括30542个人类基因，每 Interse 0.7727 0.8759 0.9428 0.9624 一个都被一个基因序列的36个特征数值表示。68 表4数据集Yeast-.cdc的实验结果个标记对应于68种疾病，标记分布是基因在68种 Table 4 The experimental results of Yeast-cdc 疾病上的表达水平。第6个数据集Movie是关于电评价标准 PT-Bayes AA-BP SA-IIS LDLKM 影的用户评级。评级数据来源于Netflix,范围是15 级(5个标记)。标记分布描述了每个评级所占的比 Cheby 0.1124 0.0393 0.0233 0.0162 例。特征则提取自电影的元数据，一共有1869个 Clark 1.0758 0.6073 0.2926 0.2158 特征。为了能使实验结果更具说服力，采用了十折交 Canbe 3.5263 1.8298 0.8976 0.6467 叉的方式进行实验。聚类划分的簇的数目为5，最 Cosine 0.8491 0.95500.9870 0.9933 大迭代次数设置为20，闵可夫斯基距离参数p设置成5。在表2的数据集上进行实验，并采用表1中 Interse 0.77120.8851 0.9397 0.9575 的五种评价方式，分别与现有的3种标记分布学习表5数据集Yeast-.elu的实验结果算法进行比较。这3种比较算法分别是PT-Bayes、 Table 5 The experimental results of Yeast-elu AA-BP和SA-IIS。评价标准 PT-Bayes AA-BP SA-IIS LDLKM 3.2实验结果分析表3~8分别列出在6个不同的数据集上，4种 Cheby 0.1098 0.0388 0.0240 0.0163 算法对应不同评价标准的测量值。前3个评价指标 Clark 1.01490.5438 0.2756 0.1995 (Cheby、Clark和Canbe)值越小表示算法效果越好，后两个评价指标(Cosine和Interse)值越大表示算法 Canbe 3.2119 1.5841 0.8239 0.5855 效果越好。在每个表中最后一列是本文算法的结 Cosine 0.85720.9600 0.9876 0.9940 果。从表中可以看出本文提出的算法在5种评价标准下都有很好的效果。前3个酵母基因数据集和第 Interse 0.77760.89300.9406 0.9587表２实验数据集描述Ｔａｂｌｅ２Ｄｅｓｃｒｉｂｅｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔ数据集样本特征标记Ｙｅａｓｔ⁃ａｌｐｈａ２４６５２４１８Ｙｅａｓｔ⁃ｃｄｃ２４６５２４１５Ｙｅａｓｔ⁃ｅｌｕ２４６５２４１４ＳＪＡＦＦＥ２１３２４３６ＨｕｍａｎＧｅｎｅ３０５４２３６６８Ｍｏｖｉｅ７７５５１８６９５第１个到第３个数据集（从Ｙｅａｓｔ⁃ａｌｐｈａ到Ｙｅａｓｔ⁃ｅｌｕ）是从酿酒酵母［６］的４个生物实验上收集的真实数据集。每个数据集总共包括２４６５个酵母基因，每个基因通过２４个特征表示。标记对应于离散的时间点，标记分布是每个时间点的基因表达水平。第四个数据集拓展来自一个脸部表情图像数据集ＪＡＦＦＥ，它包括来自１０个日本女性的２１３张灰度图，并利用局部二值模式［２３］从每张图像中采集２４３个特征，每张图像由６０个人在６种感情上打分。第５个数据集ＨｕｍａｎＧｅｎｅ是一个大规模的真实数据集，来自于人类基因和疾病的关系生物实验［２４］。在数据集中总共包括３０５４２个人类基因，每一个都被一个基因序列的３６个特征数值表示。６８个标记对应于６８种疾病，标记分布是基因在６８种疾病上的表达水平。第６个数据集Ｍｏｖｉｅ是关于电影的用户评级。评级数据来源于Ｎｅｔｆｌｉｘ，范围是１５级（５个标记）。标记分布描述了每个评级所占的比例。特征则提取自电影的元数据，一共有１８６９个特征。为了能使实验结果更具说服力，采用了十折交叉的方式进行实验。聚类划分的簇的数目为５，最大迭代次数设置为２０，闵可夫斯基距离参数ｐ设置成５。在表２的数据集上进行实验，并采用表１中的五种评价方式，分别与现有的３种标记分布学习算法进行比较。这３种比较算法分别是ＰＴ⁃Ｂａｙｅｓ、ＡＡ⁃ＢＰ和ＳＡ⁃ＩＩＳ。３．２实验结果分析表３～８分别列出在６个不同的数据集上，４种算法对应不同评价标准的测量值。前３个评价指标（Ｃｈｅｂｙ、Ｃｌａｒｋ和Ｃａｎｂｅ）值越小表示算法效果越好，后两个评价指标（Ｃｏｓｉｎｅ和Ｉｎｔｅｒｓｅ）值越大表示算法效果越好。在每个表中最后一列是本文算法的结果。从表中可以看出本文提出的算法在５种评价标准下都有很好的效果。前３个酵母基因数据集和第５个人类基因数据集完全优于和它对比的算法，第４个和第６个数据集也优于其他两个对比算法，并在总体上优于第３个对比算法。整体上来看，ＬＤＬＫＭ在基因数据集上可以取得比在其他类型数据集上更好的效果，在非基因数据集ＳＪＡＦＦＥ和Ｍｏｖｉｅ上的效果略微差于在基因数据集上的效果，而在ＨｕｍａｎＧｅｎｅ数据集上ＬＤＬＫＭ的效果与ＳＡ⁃ＩＩＳ较为接近，提升效果不大。这说明不同类型的数据集对我们的算法有着一定的影响。同时，可以进一步看到，专用化的算法ＳＡ⁃ＩＩＳ比算法ＰＴ⁃Ｂａｙｅｓ和ＡＡ⁃ＢＰ的效果更好，处于第二的位置。表３数据集Ｙｅａｓｔ－ａｌｐｈａ的实验结果Ｔａｂｌｅ３ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ａｌｐｈａ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１０１００．０３６１０．０２０２０．０１３５Ｃｌａｒｋ１．１７２８０．７２２１０．３０３４０．２１０１Ｃａｎｂｅ４．１９８９２．３８３１１．０１４００．６８１２Ｃｏｓｉｎｅ０．８４８６０．９４８５０．９８８１０．９９４６Ｉｎｔｅｒｓｅ０．７７２７０．８７５９０．９４２８０．９６２４表４数据集Ｙｅａｓｔ⁃ｃｄｃ的实验结果Ｔａｂｌｅ４ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ｃｄｃ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１１２４０．０３９３０．０２３３０．０１６２Ｃｌａｒｋ１．０７５８０．６０７３０．２９２６０．２１５８Ｃａｎｂｅ３．５２６３１．８２９８０．８９７６０．６４６７Ｃｏｓｉｎｅ０．８４９１０．９５５００．９８７００．９９３３Ｉｎｔｅｒｓｅ０．７７１２０．８８５１０．９３９７０．９５７５表５数据集Ｙｅａｓｔ⁃ｅｌｕ的实验结果Ｔａｂｌｅ５ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ｅｌｕ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１０９８０．０３８８０．０２４００．０１６３Ｃｌａｒｋ１．０１４９０．５４３８０．２７５６０．１９９５Ｃａｎｂｅ３．２１１９１．５８４１０．８２３９０．５８５５Ｃｏｓｉｎｅ０．８５７２０．９６０００．９８７６０．９９４０Ｉｎｔｅｒｓｅ０．７７７６０．８９３００．９４０６０．９５８７第３期邵东恒，等：应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习 ·３２９·

<<向上翻页向下翻页>>

点击下载：【智能系统】应用iki-means算法实现标记分布学习