最后将Ｗ与训练集对应的标记分布的均值向量矩阵Ｕ相乘，即Ｐ＝

正在加载图片...

·328 智能系统学报第12卷最后将W与训练集对应的标记分布的均值向 8)根据式(9)得出预测标记分布P。量矩阵U相乘，即实验与结果分析 P=WU (9) 式中：U=[u12…u,];P就是所需要求的预测标记在这部分，将通过实验来验证本文提出的基于分布。 k-means的标记分布学习算法。上述的算法过程可以通过图1的流程图来标记分布学习算法的输出是一个标记分布，与表示。单标记学习的单标记输出和多标记学习的标记集输入输出都不同。因此，标记分布学习算法的评价方式，应该与单标记学习和多标记学习算法不同。这 [选择初始均值向量种方式不是通过预测标记的准确度来评价算法优计算样本与均值向量的距离劣，而是通过测量预测结果和真实标记分布之间的划分样本筷距离或相似度来衡量算法效果。有很多测量概率分布之间的距离或相似度的方法)可以用来很好更新均值向量地测量标记分布之间的距离或相似度。例如，表1 <是否更新一 Y 中根据文献[7]和[22]选出的5种测量方式就能很 N 好地用来评价标记分布算法。评价标准距离名称样本到均值向量的距离矩阵之后的“↓”代表距离值越小越好，相似度名称之后预测标记分布权重矩阵的“↑”表示相似值越大越好。这5种评价方法分别是切比雪夫距离(Chebyshev)、克拉克距离 (输出预测标记分布○ (Clark)、堪培拉量度(Canberra)、弦系数(Cosine)以图1 LDLKM算法流程图及交叉相似性(Intersection),前3种以距离作为评 Fig.1 The flowchart of LDLKM 价，即越小越好，后两种以相似度作为评价，即越大本文提出的LDLKM算法具体步骤如下：越好。算法基于k-means算法的标记分布学习表1评价指标 (LDLKM)。 Table 1 Evaluation index 输入聚类的簇数k,聚类迭代的最大次数d,闵可评价标准计算形式夫斯基距离参数P,训练集S={(x1,D),(x2,D2),…, Chebyshev↓ (x,D) Dis,=maxdd 输出测试集的预测标记分布P。 1)从训练集样本H中随机选择k个样本作为 (d,-4,)月 Clark↓ Dis,= 初始向量{u1,u2,…,“}。 V(d.d) 2)迭代开始，令C,(1≤i≤k)为空，利用式(3)】计算样本x与各均值向量u:的距离。 Canberra↓ 3)依据式(4)，根据距离最近的均值向量确定 ,=刻 d,d x的簇标记入；将样本x,划入相应的簇。 4)更新均值向量，分别计算划分完簇后的新的 ∑4d Cosine Dis, 均简向量：，向三。 √G√∑话 5)若当前的均值向量均未更新或达到规定的 Intersection↑ Dis5=∑i.1min(d,d）最大迭代次数，继续下一步：否则，返回2)，重复3) 到5)直到所有测法样本划分完毕。 3.1实验设置 6)依据式(6)求得测试集每个样本与各个均值通过上述5种评价方式，本次实验在6个公开向量的距离矩阵T。的数据集上进行，它们分别是Yeast-.alpha、Yeast- 7)利用式(7)和式(8)求得预测标记分布的权 cdc、Yeast--elu、SJAFFE、Human Gene和Movie,详重矩阵W。细的信息如表2所示。最后将Ｗ与训练集对应的标记分布的均值向量矩阵Ｕ相乘，即Ｐ＝ＷＵ（９）式中：Ｕ＝［ｕ１ｕ２… ｕｂ］；Ｐ就是所需要求的预测标记分布。上述的算法过程可以通过图１的流程图来表示。图１ＬＤＬＫＭ算法流程图Ｆｉｇ．１ＴｈｅｆｌｏｗｃｈａｒｔｏｆＬＤＬＫＭ本文提出的ＬＤＬＫＭ算法具体步骤如下：算法基于ｋ⁃ｍｅａｎｓ算法的标记分布学习（ＬＤＬＫＭ）。输入聚类的簇数ｋ，聚类迭代的最大次数ｄ，闵可夫斯基距离参数ｐ，训练集Ｓ＝｛（ｘ１，Ｄ１），（ｘ２，Ｄ２），…，（ｘｎ，Ｄｎ）｝。输出测试集的预测标记分布Ｐ。１）从训练集样本Ｈ中随机选择ｋ个样本作为初始向量 μ１， μ２， …， μｋ { } 。２）迭代开始，令Ｃｉ（１≤ｉ≤ｋ）为空，利用式（３）计算样本ｘｊ与各均值向量 μｉ的距离。３）依据式（４），根据距离最近的均值向量确定ｘｊ的簇标记 λｊ；将样本ｘｊ划入相应的簇。４）更新均值向量，分别计算划分完簇后的新的均值向量： μｉ＝１Ｃｉ ∑ｘ∈Ｃｉｘ。５）若当前的均值向量均未更新或达到规定的最大迭代次数，继续下一步；否则，返回２），重复３）到５）直到所有测法样本划分完毕。６）依据式（６）求得测试集每个样本与各个均值向量的距离矩阵Ｔ。７）利用式（７）和式（８）求得预测标记分布的权重矩阵Ｗ。８）根据式（９）得出预测标记分布Ｐ。３实验与结果分析在这部分，将通过实验来验证本文提出的基于ｋ⁃ｍｅａｎｓ的标记分布学习算法。标记分布学习算法的输出是一个标记分布，与单标记学习的单标记输出和多标记学习的标记集输出都不同。因此，标记分布学习算法的评价方式，应该与单标记学习和多标记学习算法不同。这种方式不是通过预测标记的准确度来评价算法优劣，而是通过测量预测结果和真实标记分布之间的距离或相似度来衡量算法效果。有很多测量概率分布之间的距离或相似度的方法［７］可以用来很好地测量标记分布之间的距离或相似度。例如，表１中根据文献［７］和［２２］选出的５种测量方式就能很好地用来评价标记分布算法。评价标准距离名称之后的“↓”代表距离值越小越好，相似度名称之后的“↑”表示相似值越大越好。这５种评价方法分别是切比雪夫距离（Ｃｈｅｂｙｓｈｅｖ）、克拉克距离（Ｃｌａｒｋ）、堪培拉量度（Ｃａｎｂｅｒｒａ）、弦系数（Ｃｏｓｉｎｅ）以及交叉相似性（Ｉｎｔｅｒｓｅｃｔｉｏｎ），前３种以距离作为评价，即越小越好，后两种以相似度作为评价，即越大越好。表１评价指标Ｔａｂｌｅ１Ｅｖａｌｕａｔｉｏｎｉｎｄｅｘ评价标准计算形式Ｃｈｅｂｙｓｈｅｖ ↓ Ｄｉｓ１＝ｍａｘｌｄｌ－ｄ ∧ ｌＣｌａｒｋ ↓ Ｄｉｓ２＝ ∑ｃｌ＝１（ｄｌ－ｄ ∧ ｌ）２（ｄｌ，ｄ ∧ ｌ）２Ｃａｎｂｅｒｒａ ↓ Ｄｉｓ３＝ ∑ ｃｌ＝１ｄｌ－ｄｌ ∧ ｄｌ＋ｄｌ ∧ Ｃｏｓｉｎｅ ↑ Ｄｉｓ４＝ ∑ ｃｌ＝１ｄｌｄｌ ∧ ∑ ｃｌ＝１ｄ２ｌ ∑ ｃｌ＝１ｄ２ｌ ∧ Ｉｎｔｅｒｓｅｃｔｉｏｎ ↑ Ｄｉｓ５＝∑ｃｌ＝１ｍｉｎ（ｄｌ，ｄｌ ∧ ）３．１实验设置通过上述５种评价方式，本次实验在６个公开的数据集上进行，它们分别是Ｙｅａｓｔ⁃ａｌｐｈａ、Ｙｅａｓｔ⁃ ｃｄｃ、Ｙｅａｓｔ⁃ｅｌｕ、ＳＪＡＦＦＥ、ＨｕｍａｎＧｅｎｅ和Ｍｏｖｉｅ，详细的信息如表２所示。 ·３２８· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【智能系统】应用iki-means算法实现标记分布学习