【机器感知与模式识别】三角距离相关性的标签分布学习.pdf_大学文库

第16卷第3期智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992/tis.202001027 三角距离相关性的标签分布学习黄雨婷，徐媛媛，张恒汝，闵帆 (西南石油大学计算机科学学院，四川成都610500) 摘要：针对标签相关性的表征问题，提出一种基于三角距离相关性的标签分布学习算法。首先，构建距离映射矩阵，描述标签分布和特征矩阵之间的映射关系。其次，设计新的三角距离，以表征标签之间的相关性。最后，结合标签相关性，设计基于Kullback-Leibler散度的目标函数。在8个数据集上的实验结果表明，与8种主流算法相比，本文提出的算法在6个准确性指标上占优势。关键词：标签分布学习：标签相关性；三角距离：距离映射矩阵：多标签学习：最大嫡模型：Kullback-Leibler散度：L-BFGS方法中图分类号：TP391文献标志码：A 文章编号：1673-4785(2021)03-0449-10 中文引用格式：黄雨婷，徐媛媛，张恒汝，等.三角距离相关性的标签分布学习W.智能系统学报，2021,16(3)：449-458. 英文引用格式：HUANG Yuting,XU Yuanyuan,ZHANG Hengru,etal.Label distribution learning based on triangular distance correlation[J.CAAI transactions on intelligent systems,2021,16(3):449-458. Label distribution learning based on triangular distance correlation HUANG Yuting,XU Yuanyuan,ZHANG Hengru,MIN Fan (College of Computer Science,Southwest Petroleum University,Chengdu 610500,China) Abstract:Aiming at the representation problem of label correlation,a label distribution learning algorithm based on tri- angular distance correlation is proposed in this paper.First,a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix.Then a new triangle distance is designed to characterize the correlation between the labels.Finally,based on the label correlation,the Kullback-Leibler divergence- based objective function is designed.Results on eight datasets show that the proposed algorithm is superior in six evalu- ation measures in terms of accuracy compared with eight mainstream algorithms. Keywords:label distribution learning;label correlation;triangular distance;distance mapping matrix;multi-label learn- ing;maximum entropy model;Kullback-Leibler divergence;L-BFGS method 标签分布学习(label distribution learning,LDL)提出了LDLLC(label distribution learning by exploit- 是多标签学习(muti--label earing,MLL)的泛化。 ing label correlation)算法，使用皮尔逊相关系数 MLL用标签集的部分标签来描述实例，LDL 描述了标签之间的相关性。Zheng等1提出了用标签集所有标签的表征程度构成的分布来描述 LDL-SCL(label distribution learning by exploiting 实例2-1。文献[l2]将年龄估计问题泛化到LDL sample correlation locally)算法，考虑实例之间的相中，降低了平均绝对误差(mean absolute deviation, 关性。后2种方法显著提高了模型对标签分布的 MAE)。文献[I3]将人群计数问题泛化到LDL中，预测能力。提高了人群计数的准确率。本文提出了一种三角距离相关性的标签分布 Geng等W提出了SA-IS(specialized algorithm 学习算法(label distribution learning based on trian- improithm Iternative scaling)算法，将单个标签数据 gular distance correlation,T-LDL)o首先，令X和D 转换为分布数据，但未考虑标签的相关性。Ja等分别表示特征矩阵和标签分布矩阵，构建距离映射矩阵0描述X和D之间的映射关系。其次，设收稿日期：2020-01-20. 基金项目：国家自然科学基金项目(61902328). 计新的相似度距离，以表征标签之间的相关性。通信作者：张恒汝.E-mail:zhanghrswpu(@l63.com 最后，结合标签相关性，设计基于KL(kullback-lei-

DOI: 10.11992/tis.202001027 三角距离相关性的标签分布学习黄雨婷，徐媛媛，张恒汝，闵帆（西南石油大学计算机科学学院，四川成都 610500）摘要：针对标签相关性的表征问题，提出一种基于三角距离相关性的标签分布学习算法。首先，构建距离映射矩阵，描述标签分布和特征矩阵之间的映射关系。其次，设计新的三角距离，以表征标签之间的相关性。最后，结合标签相关性，设计基于 Kullback-Leibler 散度的目标函数。在 8 个数据集上的实验结果表明，与 8 种主流算法相比，本文提出的算法在 6 个准确性指标上占优势。关键词：标签分布学习；标签相关性；三角距离；距离映射矩阵；多标签学习；最大熵模型；Kullback-Leibler 散度；L-BFGS 方法中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2021)03−0449−10 中文引用格式：黄雨婷, 徐媛媛, 张恒汝, 等. 三角距离相关性的标签分布学习 [J]. 智能系统学报, 2021, 16(3): 449–458. 英文引用格式：HUANG Yuting, XU Yuanyuan, ZHANG Hengru, et al. Label distribution learning based on triangular distance correlation[J]. CAAI transactions on intelligent systems, 2021, 16(3): 449–458. Label distribution learning based on triangular distance correlation HUANG Yuting，XU Yuanyuan，ZHANG Hengru，MIN Fan (College of Computer Science, Southwest Petroleum University, Chengdu 610500, China) Abstract: Aiming at the representation problem of label correlation, a label distribution learning algorithm based on triangular distance correlation is proposed in this paper. First, a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix. Then a new triangle distance is designed to characterize the correlation between the labels. Finally, based on the label correlation, the Kullback-Leibler divergencebased objective function is designed. Results on eight datasets show that the proposed algorithm is superior in six evaluation measures in terms of accuracy compared with eight mainstream algorithms. Keywords: label distribution learning; label correlation; triangular distance; distance mapping matrix; multi-label learning; maximum entropy model; Kullback-Leibler divergence; L-BFGS method 标签分布学习 (label distribution learning，LDL) 是多标签学习 (muti-label learning，MLL) 的泛化[1-8]。 MLL 用标签集的部分标签来描述实例[9-11] ，LDL 用标签集所有标签的表征程度构成的分布来描述实例[12-15]。文献 [12] 将年龄估计问题泛化到 LDL 中，降低了平均绝对误差 (mean absolute deviation， MAE)。文献 [13] 将人群计数问题泛化到 LDL 中，提高了人群计数的准确率。 Geng 等 [1] 提出了 SA-IIS(specialized algorithm improithm lternative scaling) 算法，将单个标签数据转换为分布数据，但未考虑标签的相关性。Jia 等 [16] 提出了 LDLLC(label distribution learning by exploiting label correlation) 算法，使用皮尔逊相关系数描述了标签之间的相关性。Zheng 等 [17] 提出了 LDL-SCL(label distribution learning by exploiting sample correlation locally) 算法，考虑实例之间的相关性。后 2 种方法显著提高了模型对标签分布的预测能力。本文提出了一种三角距离相关性的标签分布学习算法 (label distribution learning based on triangular distance correlation，T-LDL)。首先，令 X 和 D 分别表示特征矩阵和标签分布矩阵，构建距离映射矩阵 θ 描述 X 和 D 之间的映射关系。其次，设计新的相似度距离，以表征标签之间的相关性。最后，结合标签相关性，设计基于 KL (kullback-lei- 收稿日期：2020−01−20. 基金项目：国家自然科学基金项目 (61902328). 通信作者：张恒汝. E-mail：zhanghrswpu@163.com. 第 16 卷第 3 期智能系统学报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021

·450· 智能系统学报第16卷 bler divergence)散度I的目标函数，利用从训练表征度较高，{森林，沙漠}2个标签对图1(a)的表数据直接获取的X和D拟合0以预测标签分布。征度较低。在8个真实数据集上，将本文提出算法与8种主流算法进行对比实验，利用Euclidean距离I例 Sorensen距离o、Squardx距离u、KL散度u、In- tersection相似度2a和Fidelity相似度2共6种指标进行评价。结果表明，本文提出的算法在其中 3个数据集上所有指标均为最优，在其余的数据集上部分指标占优。 1相关工作 (a)示例图 1.0 首先提出LDL的问题描述与运行实例，然后 0.8 讨论流行的LDL算法及其目标函数。表1列出 0.6 了本文的符号系统。 0.4 表1符号系统 0.2 Table 1 Notations 符号含义 0 森林海洋沙漠城市森林海洋沙漠城市 R q维的输入空间 (b)多标签学习 (c)标签分布学习上完整标签集图1MLL与LDL的比较训练集 Fig.1 Differences between MLL and LDL 第个实例表2和表3为一个标签分布学习的运行实例， d x对应的实际标签分布分别为特征矩阵X和实际标签分布矩阵D,这里 Pi x对应的预测标签分布 S={(x1,d1),(x2,d2),…,(x4,d)},q=5,c=4。{天 Xir 第个实例的第r个特征空，水，房屋，沙子，树木}5个特征表征了图1(a) dy 第个标签对x,的实际表征度中包含的信息。{森林，海洋，城市，沙漠}为完整 a 距离映射矩阵 + 标签集。以加粗行为例，x1=[0.38,0.35,0.00,0.12, 特征矩阵 0.15],d1=[0.16,0.55,0.10,0.19],其中x1=0.38表 D 实际标签分布矩阵示天空占图片面积的38%，d:=0.16表示森林描 1.1LDL问题描述述该图片的程度为16%。标签分布学习相对于单标签和多标签学习而表2特征矩阵X 言，以一种更自然的方式去标记实例，并且为它 Table 2 Feature matrix X 的每个可能的标签分配一个数值。下面给出它的特征分布天空水房屋沙子树木形式化定义四。令X=R为q维输入空间，表示 X1 0.380.350.00 0.12 0.15 特征矩阵；Y={,2,…,}为完整标签集，c为标 0.12 0.20 0.50 0.11 0.07 签的数量；D表示实际标签分布矩阵；给定一个 X3 0.11 0.10 0.05 0.19 0.55 0.20 0.01 0.07 0.70 0.02 训练集S={XD}={x,d},{x2,d},…,{xm,dn}. 其中x,=[x1x2…x]∈X为第i个实例，d,= 表3 标签分布矩阵D [d1d2…de]∈[0，l]为x对应的实际标签分布， Table 3 Label distribution matrix D d是标签y对x的实际表征度，且d=l。类别森林海洋沙漠城市 d 0.16 0.55 0.10 0.19 1.2运行实例 d 0.14 0.20 0.10 0.56 图1(a)为需要标记的一个示例图片2，其完 d3 0.85 0.05 0.03 0.07 整标签集为{森林，海洋，沙漠，城市}。图1b)表明 0.10 0.05 0.76 0.09 MLL中仅有{海洋，城市}2个标签能够描述图l(a)。 X和D之间的映射关系可以通过距离映射矩图1(c)说明LDL利用这4个标签构成的分布来阵0来描述。给定训练集后，LDL的目标为学习描述该图片，且{海洋，城市}2个标签对图1(a)的到该距离映射矩阵6，再通过0计算出预测标

第3期黄雨婷，等：三角距离相关性的标签分布学习 ·451· 签分布矩阵P={p,p2,…,p},其中p,=[papn d P,Pg为标签y对x,的预测表征度，该表征度用 0=arg min (2) p(vix:0) 最大嫡模型的表示，如式(1)所示： 1.3 已有的LDL算法表4列出了4种流行的LDL算法及其目标函 pyx;)月 (1) 数，表中第一行的SA-IS和SA-BFGS(special- 2n②a ized algorithm effective quasi-newton)两种算法使用相同的目标函数，它们均采用KL散度表征所为优化求解0，LDL算法的目标函数需约束有实例的真实分布与预测分布之间的差异。前者预测分布与真实分布之间的差异。文献[]构建使用类似于改进迭代缩放的策略作为其优化方了以KL散度为基础的目标函数，通过求解式法，后者使用BFGS算法作为其优化方法。该目 (2),可得到最优距离映射矩阵0，即标函数缺少正则项，易导致欠拟合。表4已有的4种流行的LDL算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法目标函数 d SA-IS、SA-BFGSIM 0=argmin =1 p6y;) LDLLCI6 0=argmin d p: ）+hIo啡+2∑sn(Pdis） =1=1 EDLP网 =argmin2(du-p) 台台a+p0: wxe,-0tl旧 n k=1=1 =1j1k= LDLLC1在IS-LLD算法的目标函数基础上本文设计的目标函数为增加了正则项和标签相关性项。如表4中第2行所示，等号右边第2项为距离映射矩阵0的F-范 ro-(3) 数，以防止过拟合。第3项为符号函数与不同距式中：等号右侧第1项用KL散度表征所有实例离共同决定的标签相关性项，其中符号函数由皮的真实分布与预测分布之间的差异；等号右侧第尔逊相关系数决定。但皮尔逊相关系数存在二项为本文亮点，设计标签相关性项以获得更好 “2个输入向量间应有线性关系”的约束条件，而的预测结果。距离映射矩阵0中的任意2个向量要满足该条件 2.1 标签相关性较为困难。本文的亮点为结合三元相关性和距离相关性 EDL(emotion distribution learning from 来描述标签之间的相关性，如式(4)所示： texts)2通过采用新散度公式表征所有实例的真 n(0.0）=sgn(triangle(0,0)-Dis(0,0）(4) 实分布与预测分布之间的差异，并增加2个约束式中：sgn(triangle(0,0)表征三元相关性，Dis(0: 项。如表4中第3行所示，等号右边第2项为距 0)表征距离相关性。sgn(triangle(0,0)》用三角距离映射矩阵0的1-范数，以防止过拟合。第3项离来表征标签之间存在何种相关性，即正相关用不同标签的特征向量之差的2-范数，再乘以基不相关或负相关；Dis(0,O)用Euclidean距离9表于Plutchik的情绪轮得到的权重，表征不同标签征标签之间的相关程度。之间的关系。该算法在情绪分类场景下表现由于使用皮尔逊相关系数时需要考虑任意较好。 2个向量是否存在线性关系，故提出一种不考虑该约束条件的新三角距离来衡量2个向量是否相 2本文工作关。这里，仅考虑2个向量0g以及2个向量之差0-0，设计该三角距离，且使得其取值范围为[-1,1]，如常见的LDL算法的输入为特征矩阵X与实式（⑤）所示：际标签分布矩阵D,输出为预测标签分布矩阵P, 构建距离映射矩阵0描述X和D之间的映射关 0-0)2 系。为了得到更精准的预测标签分布矩阵P,设 triangle(,）计目标函数是LDL算法工作的重点。本节重点介绍如何设计目标函数以及本文提出的T-LDL算法

签分布矩阵 P = {p1 , p2 , …, pi}，其中 pi = [pi1 pi2 … pic]，pij 为标签 yj 对 xi 的预测表征度，该表征度用最大熵模型[25] 表示，如式 (1) 所示： p(yj |xi ;θ)= exp   ∑q r=1 θkr xir   ∑c k=1 exp   ∑q r=1 θkr xir   (1) 为优化求解 θ，LDL 算法的目标函数需约束预测分布与真实分布之间的差异。文献 [1] 构建了以 KL 散度为基础的目标函数，通过求解式 (2)，可得到最优距离映射矩阵 θ * ，即 θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) (2) 1.3 已有的 LDL 算法表 4 列出了 4 种流行的 LDL 算法及其目标函数，表中第一行的 SA-IIS[1] 和 SA-BFGS(specialized algorithm effective quasi-newton)[1] 两种算法使用相同的目标函数，它们均采用 KL 散度表征所有实例的真实分布与预测分布之间的差异。前者使用类似于改进迭代缩放的策略作为其优化方法，后者使用 BFGS 算法作为其优化方法。该目标函数缺少正则项，易导致欠拟合。表 4 已有的 4 种流行的 LDL 算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法目标函数 SA-IIS、SA-BFGS[1] θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) LDLLC[16] θ ∗= argmin θ ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ||θ||2 F +λ2 ∑c i=1 ∑c j=1 sgn(ρθi,θj )dis(ρθi,θj ) EDL[26] θ ∗= argmin θ 2 ∑n i=1 ∑c j=1 (di j − p(yj |xi ;θ))2 (di j + p(yj |xi ;θ))2 + λ1 n ∑c k=1 ∑q r=1 |θkr|1+ λ2 n ∑c u=1 ∑q j=1 ∑q k=1 ωjk||θu j −θuk||2 2 LDLLC[16] 在 IIS-LLD 算法的目标函数基础上增加了正则项和标签相关性项。如表 4 中第 2 行所示，等号右边第 2 项为距离映射矩阵 θ 的 F-范数，以防止过拟合。第 3 项为符号函数与不同距离共同决定的标签相关性项，其中符号函数由皮尔逊相关系数决定。但皮尔逊相关系数存在 “2 个输入向量间应有线性关系”的约束条件，而距离映射矩阵 θ 中的任意 2 个向量要满足该条件较为困难。 EDL(emotion distribution learning from texts)[26] 通过采用新散度公式表征所有实例的真实分布与预测分布之间的差异，并增加 2 个约束项。如表 4 中第 3 行所示，等号右边第 2 项为距离映射矩阵 θ 的 1-范数，以防止过拟合。第 3 项用不同标签的特征向量之差的 2-范数，再乘以基于 Plutchik 的情绪轮得到的权重，表征不同标签之间的关系。该算法在情绪分类场景下表现较好。 2 本文工作常见的 LDL 算法的输入为特征矩阵 X 与实际标签分布矩阵 D，输出为预测标签分布矩阵 P，构建距离映射矩阵 θ 描述 X 和 D 之间的映射关系。为了得到更精准的预测标签分布矩阵 P，设计目标函数是 LDL 算法工作的重点。本节重点介绍如何设计目标函数以及本文提出的 T-LDL 算法。本文设计的目标函数为 T(θ) = ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ∑c i=1 ∑c j=1 η ( θi ,θj ) (3) 式中：等号右侧第 1 项用 KL 散度表征所有实例的真实分布与预测分布之间的差异；等号右侧第二项为本文亮点，设计标签相关性项以获得更好的预测结果。 2.1 标签相关性本文的亮点为结合三元相关性和距离相关性来描述标签之间的相关性，如式 (4) 所示： η ( θi ,θj ) = sgn(triangle ( θi ,θj ) )·Dis( θi ,θj ) (4) 式中：sgn(triangle(θi , θj )) 表征三元相关性，Dis(θi , θj ) 表征距离相关性。sgn(triangle(θi , θj )) 用三角距离来表征标签之间存在何种相关性，即正相关、不相关或负相关；Dis(θi , θj ) 用 Euclidean 距离[19] 表征标签之间的相关程度。由于使用皮尔逊相关系数时需要考虑任意 2 个向量是否存在线性关系，故提出一种不考虑该约束条件的新三角距离来衡量 2 个向量是否相关。这里，仅考虑2个向量θi、θj以及2个向量之差θi−θj，设计该三角距离，且使得其取值范围为 [−1,1]，如式 (5) 所示： triangle ( θi ,θj ) = 1− 2 √∑m k=1 (θik −θjk) 2 √∑m k=1 θik 2 + √∑m k=1 θjk 2 (5) 第 3 期黄雨婷，等：三角距离相关性的标签分布学习 ·451·

将该三角距离代入符号函数，用于判断标签之间存在何种相关性：正相关、不相关或负相关。 sgn( triangle ( θi ,θj )) =    1, 0 ξ，使用 L-BFGS 方法[27] 优化更新 θ 和 B； 4)end if； 5)l ← l + 1； 6) 通过式 (1) 计算 p(yj |xi ;θ)。 3 实验及结果分析本节首先介绍实验使用的 8 个数据集和 6 个评价指标，再将本文提出的 T-LD L 算法与 LDLLC[16] 、PT-Bayes[1] 、PT-SVM[1, 17] 、AA-kNN[1, 4] 、 AA-BP[1] 、SA-IIS[1, 16] 、SA-BFGS(specialized algorithm effective quasi-newton)[ 1 , 2 ] 和 EDL[ 2 6 ] 8 种主流的 LDL 算法进行比较，最后对实验结果进行讨论。 3.1 数据集表 5 列出了从芽殖酵母的 8 个生物学实验中收集得到的 8 个真实数据集[28]。实例为 2 465 个酵母基因，特征是长度为 24 的系统发育谱，标签为不同生物实验中的离散时间点，数量范围为 4~18。表 5 数据集 Table 5 Datasets 数据集名称实例个数特征个数标签个数 Alpha 2 465 24 18 Cdc 2 465 24 15 Elu 2 465 24 14 Diau 2 465 24 7 Heat 2 465 24 6 Spo 2 465 24 6 Cold 2 465 24 4 Dtt 2 465 24 4 Alpha 数据集记录在 α 因子的影响下酵母在有丝分裂期间的基因表达情况；Cdc 数据集记录酵母在细胞分裂期间停滞的 cdc-15 基因表达情况；Elu 数据集记录酵母经离心淘洗后的基因表达情况；Diau 数据集记录酵母在双峰转换过程中的基因表达情况；Heat 数据集记录酵母在经过高温冲击后的基因表达情况；Spo 数据集记录酵母在孢子形成过程中的基因表达情况；Cold 数据集记录酵母经低温处理后的基因表达情况；Dtt 数据集记录酵母经还原剂处理后的基因表达情况[28]。 3.2 评价指标表 6 列出了评估 LDL 算法的 6 个评价指标的名称和公式。其中，pij 是标签 yj 对 xi 的预测表征度；dij 是标签 yj 对 xi 的实际表征度；“↓”表示“越小越好”；“↑”表示“越大越好”。表 6 LDL 算法的评价指标 Table 6 Evaluation measures for the LDL algorithms 指标名称公式 Euclidean[19] ↓ dis = vt∑c j=1 (pi j −di j) 2 Sørensen[20] ↓ dis = ∑c j=1 |pi j −di j| ∑c j=1 |pi j +di j| Squard χ2[21] ↓ dis = ∑c j=1 ( pi j −di j)2 pi j +di j Kullback-Leibler (KL)[18] ↓ dis = ∑c j=1 pi j ln pi j di j Intersection[22] ↑ sim = ∑c j=1 min( pi j,di j) Fidelity[29] ↑ sim = ∑c j=1 √ pi jdi j ·452· 智能系统学报第 16 卷

第3期黄雨婷，等：三角距离相关性的标签分布学习 ·453· 3.3 实验结果对于数据集Elu和Cold,本文提出的方法在表7~14的第1~6列列出了10次实验的平均所有评价指标上都比其他8种方法表现更好。对结果±标准差（当前方法性能的排名），末列为前于数据集Alpha、Cdc和Heat,本文提出的方法在 6列平均性能排名。首先比较表7~14中的平均大多数评价指标上排名第一。对于其余3个数据值，如果平均值相同，再比较标准差。集，本文提出的方法排在第二或者第三。表7 Alpha数据集上的实验结果 Table 7 Experimental results on the Alpha dataset 算法 Euclideanl Sorensenl Squard KLI Intersection Fidelity 平均值 0.0231±0.00020.0378±0.00050.0055±0.00030.0055±0.0002 0.9622±0.00050.9986±.0002 T-LDL 1.2 (1) (1) (1) (1) (1) (2) 0.0232±0.00040.0379±0.0006 0.0056±0.00030.0055±0.0003 0.9621±0.0006 0.9986±.0001 LDLLC 1.8 (2) (2) (2) (2) (2) (1) 0.22980.01240.3485±0.0154 0.3879±0.02770.5607±0.07100.6515±0.01540.8777±0.0100 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0276±0.0006 0.0445±0.0009 0.0071±0.00030.0071±0.0003 0.9565±0.00090.9981±0.0001 PT-SVM 6.0 (6 (6) (6) (6) (6) (6) 0.0279±0.0006 0.0449±0.0012 0.0073±0.00030.0074±0.00040.9561±0.00120.9980±0.0001 AA-kNN 7.2 (7) (7) (7) (8) (7) (7) 0.08710.00700.1475±0.0131 0.1399±0.05010.0073±0.00580.8538±0.01170.983940.0017 AA-BP 7.8 (8) (8) (8) (7) (8) (8) 0.0269±0.0004 0.0429±0.0012 0.0069±0.00040.0069±0.00040.9571±0.00120.9983±0.0011 SA-IIS 4.7 (5) (4) (5) (5) (4) (5) 0.0251±0.0004 0.0408±0.0011 0.0063±0.0008 0.0063±0.0004 0.9574±0.0009 0.9985±0.0011 SA-BFGS 3.0 (3) (3) (3) (3) (3) (3) 0.0260±0.0011 0.0429±0.0022 0.0067±0.0006 0.0068±0.0006 0.9570±0.0022 0.9983±0.0002 EDL 4.3 (4) (5) (4) (4) ⑤ (4) 表8Cdc数据集上的实验结果 Table 8 Experimental results on the Cde dataset 算法 Euclideanl Sorensenl Squardx KLI Intersection↑ Fidelity 平均值 0.0280±0.00030.0428±0.00070.0071±0.00050.006940.00010.9587±0.0004 0.9984±0.0002 T-LDL 1.5 (1) (2) (2) (2) (1) (1) 0.0280±0.0005 0.0427±0.00090.0071±0.00070.0067±0.00050.9573±0.0009 0.9982±0.0003 LDLLC 2.2 (2) (1) (3) (1) (2) (4) 0.239940.01030.3455±0.0111 3853±0.02100.537440.05030.6545±0.0111 0.8778±0.0075 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0298±0.00070.0458±0.00120.0077±0.00040.0076±0.00040.9554±0.00120.9980±0.0001 PT-SVM 5.8 (5) (6) (6 (6) (6) (6 0.0301±0.00090.0462±0.00130.0080±0.00040.007940.00040.9538±0.00130.9980±0.0001 AA-kNN 6.8 (7 (7) (7) (7) (7) (6) 0.076940.00810.1192±0.01090.0842±0.02810.0511±0.01210.8829±0.01340.9879±0.0051 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.029040.00100.0445±0.00150.0073±0.00050.0072±0.00050.9556±0.00150.9982±0.0012 SA-IIS 5.0 (6) (4) (5 (5) (5) (5) 0.0284±0.00110.0449±0.00160.0070±0.00040.0070±0.00050.9558±0.00160.9983±0.0011 SA-BFGS 3.2 (4) (5) (1) (3) (4) (2) 0.0283±0.00060.0429±0.00080.0072±0.00040.0072±0.00040.9571±0.00080.9982±0.0001 EDL 3.3 (3) (3) (4) (4) (3) (3)

3.3 实验结果表 7~14 的第 1~6 列列出了 10 次实验的平均结果±标准差 (当前方法性能的排名)，末列为前 6 列平均性能排名。首先比较表 7~14 中的平均值，如果平均值相同，再比较标准差。对于数据集 Elu 和 Cold，本文提出的方法在所有评价指标上都比其他 8 种方法表现更好。对于数据集 Alpha、Cdc 和 Heat，本文提出的方法在大多数评价指标上排名第一。对于其余 3 个数据集，本文提出的方法排在第二或者第三。表 7 Alpha 数据集上的实验结果 Table 7 Experimental results on the Alpha dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.023 1±0.000 2 (1) 0.0378±0.000 5 (1) 0.0055±0.000 3 (1) 0.0055±0.0002 (1) 0.962 2±0.0005 (1) 0.9986±.000 2 (2) 1.2 LDLLC 0.023 2±0.000 4 (2) 0.0379±0.000 6 (2) 0.0056±0.000 3 (2) 0.0055±0.0003 (2) 0.962 1±0.0006 (2) 0.9986±.000 1 (1) 1.8 PT-Bayes 0.229 8±0.012 4 (9) 0.3485±0.015 4 (9) 0.3879±0.027 7 (9) 0.5607±0.0710 (9) 0.651 5±0.0154 (9) 0.8777±0.010 0 (9) 9.0 PT-SVM 0.027 6±0.000 6 (6) 0.0445±0.000 9 (6) 0.0071±0.000 3 (6) 0.0071±0.0003 (6) 0.956 5±0.0009 (6) 0.9981±0.000 1 (6) 6.0 AA-kNN 0.027 9±0.000 6 (7) 0.0449±0.001 2 (7) 0.0073±0.000 3 (7) 0.0074±0.0004 (8) 0.956 1±0.0012 (7) 0.9980±0.000 1 (7) 7.2 AA-BP 0.087 1±0.007 0 (8) 0.1475±0.013 1 (8) 0.1399±0.050 1 (8) 0.0073±0.0058 (7) 0.853 8±0.0117 (8) 0.9839±0.001 7 (8) 7.8 SA-IIS 0.026 9±0.000 4 (5) 0.0429±0.001 2 (4) 0.0069±0.000 4 (5) 0.0069±0.0004 (5) 0.957 1±0.0012 (4) 0.9983±0.001 1 (5) 4.7 SA-BFGS 0.025 1±0.000 4 (3) 0.0408±0.001 1 (3) 0.0063±0.000 8 (3) 0.0063±0.0004 (3) 0.957 4±0.0009 (3) 0.9985±0.001 1 (3) 3.0 EDL 0.026 0±0.001 1 (4) 0.0429±0.002 2 (5) 0.0067±0.000 6 (4) 0.0068±0.0006 (4) 0.957 0±0.0022 (5) 0.9983±0.000 2 (4) 4.3 表 8 Cdc 数据集上的实验结果 Table 8 Experimental results on the Cdc dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0280±0.0003 (1) 0.0428±0.000 7 (2) 0.007 1±0.000 5 (2) 0.006 9±0.0001 (2) 0.958 7±0.0004 (1) 0.9984±0.0002 (1) 1.5 LDLLC 0.0280±0.0005 (2) 0.0427±0.000 9 (1) 0.007 1±0.000 7 (3) 0.006 7±0.0005 (1) 0.957 3±0.0009 (2) 0.9982±0.0003 (4) 2.2 PT-Bayes 0.2399±0.0103 (9) 0.3455±0.011 1 (9) 3853±0.0210 (9) 0.537 4±0.0503 (9) 0.654 5±0.0111 (9) 0.8778±0.0075 (9) 9.0 PT-SVM 0.0298±0.0007 (5) 0.0458±0.001 2 (6) 0.007 7±0.000 4 (6) 0.007 6±0.0004 (6) 0.955 4±0.0012 (6) 0.9980±0.0001 (6) 5.8 AA-kNN 0.0301±0.0009 (7) 0.0462±0.001 3 (7) 0.008 0±0.000 4 (7) 0.007 9±0.0004 (7) 0.953 8±0.0013 (7) 0.9980±0.0001 (6) 6.8 AA-BP 0.0769±0.0081 (8) 0.1192±0.010 9 (8) 0.084 2±0.028 1 (8) 0.051 1±0.0121 (8) 0.882 9±0.0134 (8) 0.9879±0.0051 (8) 8.0 SA-IIS 0.0290±0.0010 (6) 0.0445±0.001 5 (4) 0.007 3±0.000 5 (5) 0.007 2±0.0005 (5) 0.955 6±0.0015 (5) 0.9982±0.0012 (5) 5.0 SA-BFGS 0.0284±0.0011 (4) 0.0449±0.001 6 (5) 0.007 0±0.000 4 (1) 0.007 0±0.0005 (3) 0.955 8±0.0016 (4) 0.9983±0.0011 (2) 3.2 EDL 0.0283±0.0006 (3) 0.0429±0.000 8 (3) 0.007 2±0.000 4 (4) 0.007 2±0.0004 (4) 0.957 1±0.0008 (3) 0.9982±0.0001 (3) 3.3 第 3 期黄雨婷，等：三角距离相关性的标签分布学习 ·453·

·454· 智能系统学报第16卷表9Elu数据集上的实验结果 Table 9 Experimental results on the Elu dataset 算法 Euclideanl Sorensenl Squard KLL Intersectionf Fidelity 平均值 0.0279±0.00030.0415±0.00050.0063±0.00050.0062±0.00040.9585±0.0005 0.9984±0.0003 T-LDL 1.0 (1) (1) (1) (1) (1) (1) 0.027940.00050.0415±0.00070.0063±0.00080.006240.00060.9585±0.00070.9984±0.0004 LDLLC 2.0 (2) (2) (2) (2) (2) (2) 0.2588±0.02030.3558±0.01980.4081±0.04080.6062±0.10300.6442±0.01980.8689±0.0156 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0293±0.00080.0438±0.00120.0068±0.00050.0068±0.00050.9562±0.00120.9983±0.0002 PT-SVM 4.0 (4) (4) (4) (4) (4) (4) 0.0297±0.00100.0443±0.00140.00710.00060.0071±0.00060.9557±0.00140.99820.0002 AA-kNN 5.3 (5) (5) (6 (6) (5) (5) 0.0733±0.00370.11000.00480.0731±0.00260.0481±0.00610.8891±0.00640.9890±0.0025 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0307±0.00090.0472±0.00140.0071±0.00040.0071±0.00040.9528±0.00150.9982±0.0035 SA-IIS 5.8 (6) (6) (5 (5) (7 (6) 0.0308±0.00090.0475±0.00120.0075±0.00040.0073±0.00030.9552±0.00170.9979±0.0009 SA-BFGS 6.8 (7) (T) (7 (7 (6) (7) 0.028940.00050.0431±0.00080.0067±0.00030.0067±0.00030.9569±0.00070.9983±0.0001 EDL 3.0 (3) (3) (3) (3) (3) (3) 表10Diau数据集上的实验结果 Table 10 Experimental results on the Diau dataset 算法 Euclideanl Sorensenl Squard KLI Intersection Fidelity 平均值 0.05430.00080.0597±0.00090.0132±0.00110.0130±0.00080.9403±0.00090.9967±0.0005 T-LDL 2.5 (3) (3) (2) (2) (3) R 0.054540.00090.0599±0.00100.0133±0.00110.013240.00080.9401±0.0010 0.9966±0.0005 LDLLC 3.5 (4) (4) (3) (3) (4) (3) 0.40274±0.01830.4177±0.01700.5280±0.02810.851240.0772 0.5823±0.0170 0.8230±0.0107 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0628±0.00370.0686±0.00410.0169±0.00180.0167±0.00170.9314±0.00410.9957±0.0004 PT-SVM 7.2 (8) (7) (7) (7) (7) (7) 0.0567±0.00190.0622±0.00220.0145±0.00110.0145±0.00100.9378±0.00220.9963±0.0003 AA-kNN 5.0 (5) (5) (5 (5) (5) (5) 0.0802±0.00510.0863±0.00590.0276±0.00130.0291±0.00690.9142±0.00670.9929±0.0031 AA-BP 8.0 (7) (8) (8) (8) (8) (8) 0.053940.00310.0593±0.00320.0144±0.00140.0141±0.00130.9407±0.00030.9964±0.0036 SA-IIS 3.0 (2) (2) (4) (4) (2) (4) 0.0444±0.00220.0476±0.0023 0.0089±0.00080.0083±0.00090.9513±0.0027 0.9978±0.0031 SA-BFGS 1.0 (1) (1) (1) (1) (1) (1) 0.0597±0.00100.0653±0.00100.0158±0.00050.0155±0.00050.9347±0.00100.9960±0.0002 EDL 6.0 (6) (6) (6 (6) (6) (6 表11Heat数据集上的实验结果 Table 11 Experimental results on the Heat dataset 算法 Euclidean! Sorensenl Squard x KLI Intersectiont Fidelity平均值 0.0591±0.00090.0597±0.00080.0127±0.00110.0125±0.0007 0.9403±0.00080.9968±0.0007 T-LDL 1.2 (2) (1) () () () (1)

表 9 Elu 数据集上的实验结果 Table 9 Experimental results on the Elu dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0279±0.0003 (1) 0.0415±0.000 5 (1) 0.006 3±0.000 5 (1) 0.006 2±0.0004 (1) 0.958 5±0.0005 (1) 0.9984±0.0003 (1) 1.0 LDLLC 0.0279±0.0005 (2) 0.0415±0.000 7 (2) 0.006 3±0.000 8 (2) 0.006 2±0.0006 (2) 0.958 5±0.0007 (2) 0.9984±0.0004 (2) 2.0 PT-Bayes 0.2588±0.0203 (9) 0.3558±0.019 8 (9) 0.408 1±0.040 8 (9) 0.606 2±0.1030 (9) 0.644 2±0.0198 (9) 0.8689±0.0156 (9) 9.0 PT-SVM 0.0293±0.0008 (4) 0.0438±0.001 2 (4) 0.006 8±0.000 5 (4) 0.006 8±0.0005 (4) 0.956 2±0.0012 (4) 0.9983±0.0002 (4) 4.0 AA-kNN 0.0297±0.0010 (5) 0.0443±0.001 4 (5) 0.007 1±0.000 6 (6) 0.007 1±0.0006 (6) 0.955 7±0.0014 (5) 0.9982±0.0002 (5) 5.3 AA-BP 0.0733±0.0037 (8) 0.1100±0.004 8 (8) 0.073 1±0.002 6 (8) 0.048 1±0.0061 (8) 0.889 1±0.0064 (8) 0.9890±0.0025 (8) 8.0 SA-IIS 0.0307±0.0009 (6) 0.0472±0.001 4 (6) 0.007 1±0.000 4 (5) 0.007 1±0.0004 (5) 0.952 8±0.0015 (7) 0.9982±0.0035 (6) 5.8 SA-BFGS 0.0308±0.0009 (7) 0.0475±0.001 2 (7) 0.007 5±0.000 4 (7) 0.007 3±0.0003 (7) 0.955 2±0.0017 (6) 0.9979±0.0009 (7) 6.8 EDL 0.0289±0.0005 (3) 0.0431±0.000 8 (3) 0.006 7±0.000 3 (3) 0.006 7±0.0003 (3) 0.956 9±0.0007 (3) 0.9983±0.0001 (3) 3.0 表 10 Diau 数据集上的实验结果 Table 10 Experimental results on the Diau dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0543±0.0008 (3) 0.0597±0.000 9 (3) 0.013 2±0.001 1 (2) 0.013 0±0.0008 (2) 0.940 3±0.0009 (3) 0.9967±0.0005 (2) 2.5 LDLLC 0.0545±0.0009 (4) 0.0599±0.001 0 (4) 0.013 3±0.001 1 (3) 0.013 2±0.0008 (3) 0.940 1±0.0010 (4) 0.9966±0.0005 (3) 3.5 PT-Bayes 0.4027±0.0183 (9) 0.4177±0.017 0 (9) 0.528 0±0.028 1 (9) 0.851 2±0.0772 (9) 0.582 3±0.0170 (9) 0.8230±0.0107 (9) 9.0 PT-SVM 0.0628±0.0037 (8) 0.0686±0.004 1 (7) 0.016 9±0.001 8 (7) 0.016 7±0.0017 (7) 0.931 4±0.0041 (7) 0.9957±0.0004 (7) 7.2 AA-kNN 0.0567±0.0019 (5) 0.0622±0.002 2 (5) 0.014 5±0.001 1 (5) 0.014 5±0.0010 (5) 0.937 8±0.0022 (5) 0.9963±0.0003 (5) 5.0 AA-BP 0.0802±0.0051 (7) 0.0863±0.005 9 (8) 0.027 6±0.001 3 (8) 0.029 1±0.0069 (8) 0.914 2±0.0067 (8) 0.9929±0.0031 (8) 8.0 SA-IIS 0.0539±0.0031 (2) 0.0593±0.003 2 (2) 0.014 4±0.001 4 (4) 0.014 1±0.0013 (4) 0.940 7±0.0003 (2) 0.9964±0.0036 (4) 3.0 SA-BFGS 0.0444±0.0022 (1) 0.0476±0.002 3 (1) 0.008 9±0.000 8 (1) 0.008 3±0.0009 (1) 0.951 3±0.0027 (1) 0.9978±0.0031 (1) 1.0 EDL 0.0597±0.0010 (6) 0.0653±0.001 0 (6) 0.015 8±0.000 5 (6) 0.015 5±0.0005 (6) 0.934 7±0.0010 (6) 0.9960±0.0002 (6) 6.0 表 11 Heat 数据集上的实验结果 Table 11 Experimental results on the Heat dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.059 1±0.000 9 (2) 0.059 7±0.0008 (1) 0.0127±0.001 1 (1) 0.0125±0.000 7 (1) 0.940 3±0.0008 (1) 0.9968±0.0007 (1) 1.2 ·454· 智能系统学报第 16 卷

第3期黄雨婷，等：三角距离相关性的标签分布学习 ·455· 续表11 算法 Euclidean! Sorensenl Squard KLI Intersectiont Fidelityt 平均值 0.0591±0.00080.0597±0.00080.0127±0.00110.0125±0.0007 0.9403±0.0008 0.9968±0.0008 LDLLC 1.2 (1) (1) (1) (1) (1) (2) 0.4500±0.02310.4354±0.01930.5450±0.03610.8678±0.11980.5646±0.0193 0.8180±0.0131 PT-Bayes 9.0 (9) (9) (9) (9 (9) (9) 0.0625±0.00230.0627±0.00220.0141±0.00100.0141±0.00100.9373±0.0022 0.9964±0.0003 PT-SVM 33 (4) (3) (3) (3) (4) (3) 0.0624±0.00200.0632±0.00180.01410.00100.0141±0.00100.9368±0.00180.9964±0.0003 AA-kNN 32 (3) (4) (3) (3) (3) (3) 0.0793±0.00680.0822±0.00710.0235±0.00470.0246±0.00530.9198±0.00610.9937±0.0028 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0703±0.00360.0692±0.00330.0182±0.00160.018240.00160.9309±0.00330.99540.0042 SA-IIS 6.2 (6) (6) (6) (6) (6) (7) 0.0728±0.00310.0791±0.00290.0188±0.00160.0186±0.00150.9304±0.00340.99610.0048 SA-BFGS 6.8 (① (7) (7) (7) (7) (6) 0.0629±0.00160.0633±0.00170.0143±0.00080.0143±0.00080.9366±0.00170.9963±0.0003 EDL 5.0 ( (5) (5) (5) (5) 表12Spo数据集上的实验结果 Table 12 Experimental results on the Spo dataset 算法 Euclidean! Sorensen↓ Squardx KLI Intersection Fidelity 平均值 0.0817±0.00140.0842±0.00140.0247±0.00160.02430.00160.9158±0.00140.9937±0.0006 T-LDL 2.0 (1) (2) (2) (2) (2) (3) 0.0819±0.0013 0.0844±0.00130.0248±0.00140.0245±0.00130.9156±0.0013 0.9937±0.0005 LDLLC 2.7 (2) (3) (3) (3) (3) (2) 0.4038±0.01620.4030±0.01340.49720.02460.717240.08400.5971±0.0134 0.8342±0.0095 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.087840.00190.0893±0.00220.0280±0.00150.028440.00150.9107±0.0022 0.9929±0.0004 PT-SVM 6.2 () (6) (6) (6) (6) (6) 0.0879±0.00300.0899±0.00240.0286±0.00200.0286±0.00020.9096±0.00340.9927±0.0005 AA-kNN 6.8 (6) (7) (7) (7 (7 (7) 0.0979±0.00410.1012±0.00380.0344±0.00380.035940.00390.8982±0.00370.9906±0.0010 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0863±0.00410.0861±0.00360.0251±0.00360.0252±0.00220.9139±0.00360.9937±0.0005 SA-IIS 4.2 (5) (4) (4) (4) (4) (4) 0.081940.00450.0833±0.00380.0229±0.00190.0226±0.0021 0.9168±0.00390.9951±0.0007 SA-BFGS 1.3 (3) (1) (1) (1) (1) (1) 0.0843±0.00290.0872±0.00290.0268±0.00150.026940.00160.9128±0.00280.9932±0.0004 EDL 4.8 (4) (5) (S) (5) (5) (S) 表l3Cold数据集上的实验结果 Table 13 Experimental results on the Cold dataset 算法 Euclideanl Sorensen Squard KLI Intersectiont Fidelity 平均值 0.0681±0.00150.0591±0.00140.0122±0.00230.0120±0.00130.9409±0.00140.996940.0013 T-LDI 1.0 (1) (1) () (1) (1) (1) 0.068340.00190.059240.00170.0122±0.00250.0121±0.00170.9408±0.00170.9969±0.0012 LDLLC 2.2 (2) (2) (2) (2) (2) (3) 0.5252±0.02240.447940.01890.5873±0.03520.9089±0.10420.5521±0.01890.7991±0.0134 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9)

续表 11 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 LDLLC 0.0591±0.0008 (1) 0.0597±0.000 8 (1) 0.012 7±0.001 1 (1) 0.012 5±0.0007 (1) 0.940 3±0.0008 (1) 0.9968±0.0008 (2) 1.2 PT-Bayes 0.4500±0.0231 (9) 0.4354±0.019 3 (9) 0.545 0±0.036 1 (9) 0.867 8±0.1198 (9) 0.564 6±0.0193 (9) 0.8180±0.0131 (9) 9.0 PT-SVM 0.0625±0.0023 (4) 0.0627±0.002 2 (3) 0.014 1±0.001 0 (3) 0.014 1±0.0010 (3) 0.937 3±0.0022 (4) 0.9964±0.0003 (3) 3.3 AA-kNN 0.0624±0.0020 (3) 0.0632±0.001 8 (4) 0.014 1±0.001 0 (3) 0.014 1±0.0010 (3) 0.936 8±0.0018 (3) 0.9964±0.0003 (3) 3.2 AA-BP 0.0793±0.0068 (8) 0.0822±0.007 1 (8) 0.023 5±0.004 7 (8) 0.024 6±0.0053 (8) 0.919 8±0.0061 (8) 0.9937±0.0028 (8) 8.0 SA-IIS 0.0703±0.0036 (6) 0.0692±0.003 3 (6) 0.018 2±0.001 6 (6) 0.018 2±0.0016 (6) 0.930 9±0.0033 (6) 0.9954±0.0042 (7) 6.2 SA-BFGS 0.0728±0.0031 (7) 0.0791±0.002 9 (7) 0.018 8±0.001 6 (7) 0.018 6±0.0015 (7) 0.930 4±0.0034 (7) 0.9961±0.0048 (6) 6.8 EDL 0.0629±0.0016 (5) 0.0633±0.001 7 (5) 0.014 3±0.000 8 (5) 0.014 3±0.0008 (5) 0.936 6±0.0017 (5) 0.9963±0.0003 (5) 5.0 表 12 Spo 数据集上的实验结果 Table 12 Experimental results on the Spo dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0817±0.0014 (1) 0.0842±0.001 4 (2) 0.024 7±0.001 6 (2) 0.024 3±0.0016 (2) 0.915 8±0.0014 (2) 0.9937±0.0006 (3) 2.0 LDLLC 0.0819±0.0013 (2) 0.0844±0.001 3 (3) 0.024 8±0.001 4 (3) 0.024 5±0.0013 (3) 0.915 6±0.0013 (3) 0.9937±0.0005 (2) 2.7 PT-Bayes 0.4038±0.0162 (9) 0.4030±0.013 4 (9) 0.497 2±0.024 6 (9) 0.717 2±0.0840 (9) 0.597 1±0.0134 (9) 0.8342±0.0095 (9) 9.0 PT-SVM 0.0878±0.0019 (7) 0.0893±0.002 2 (6) 0.028 0±0.001 5 (6) 0.028 4±0.0015 (6) 0.910 7±0.0022 (6) 0.9929±0.0004 (6) 6.2 AA-kNN 0.0879±0.0030 (6) 0.0899±0.002 4 (7) 0.028 6±0.002 0 (7) 0.028 6±0.0002 (7) 0.909 6±0.0034 (7) 0.9927±0.0005 (7) 6.8 AA-BP 0.0979±0.0041 (8) 0.1012±0.003 8 (8) 0.034 4±0.003 8 (8) 0.035 9±0.0039 (8) 0.898 2±0.0037 (8) 0.9906±0.0010 (8) 8.0 SA-IIS 0.0863±0.0041 (5) 0.0861±0.003 6 (4) 0.025 1±0.003 6 (4) 0.025 2±0.0022 (4) 0.913 9±0.0036 (4) 0.9937±0.0005 (4) 4.2 SA-BFGS 0.0819±0.0045 (3) 0.0833±0.003 8 (1) 0.022 9±0.001 9 (1) 0.022 6±0.0021 (1) 0.916 8±0.0039 (1) 0.9951±0.0007 (1) 1.3 EDL 0.0843±0.0029 (4) 0.0872±0.002 9 (5) 0.026 8±0.001 5 (5) 0.026 9±0.0016 (5) 0.912 8±0.0028 (5) 0.9932±0.0004 (5) 4.8 表 13 Cold 数据集上的实验结果 Table 13 Experimental results on the Cold dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0681±0.0015 (1) 0.0591±0.0014 (1) 0.0122±0.0023 (1) 0.0120±0.0013 (1) 0.9409±0.0014 (1) 0.9969±0.0013 (1) 1.0 LDLLC 0.0683±0.0019 (2) 0.0592±0.0017 (2) 0.0122±0.0025 (2) 0.0121±0.0017 (2) 0.9408±0.0017 (2) 0.9969±0.0012 (3) 2.2 PT-Bayes 0.5252±0.0224 (9) 0.4479±0.0189 (9) 0.5873±0.0352 (9) 0.9089±0.1042 (9) 0.5521±0.0189 (9) 0.7991±0.0134 (9) 9.0 第 3 期黄雨婷，等：三角距离相关性的标签分布学习 ·455·

·456· 智能系统学报第16卷续表13 算法 Euclidean! Sorensen↓ Squard x KLI Intersection Fidelity 平均值 0.0753±0.00800.0654±0.00690.0147±0.00330.0146±0.00330.9346±0.00690.9963±0.0008 PT-SVM 5.3 (5) (6) (5) (5) (6) (5) 0.0724±0.0027 0.0630±0.00240.0136±0.00110.0136±0.00110.9370±0.0024 0.9966±0.0003 AA-kNN 3.2 (3) (3) (3) (3) (3) (4) 0.0838±0.00450.0710±0.00270.0178±0.00110.0163±0.0030 0.9328±0.00290.9952±0.0017 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0767±0.00040.0653±0.00340.0157±0.00150.0155±0.00150.9347±0.0034 0.9960±0.0039 SA-IIS 6.2 (6 (5) (7) (7) (5) (7 0.0745±0.00040.06410.00350.0139±0.00130.0143±0.00150.9348±0.00350.9968±0.0036 SA-BFGS 3.0 (4) (3) (3) (3) (3) (2) 0.0771±0.00180.0668±0.00160.01540.00090.0153±0.00090.9332±0.00160.9961±0.0003 EDL 6.5 (7) (7) (6) (6 (7) (6) 表14Dtt数据集上的实验结果 Table 14 Experimental results on the Dtt dataset 算法 Euclideanl Sorensenl Squardx KLI Intersection Fidelity 平均值 0.0477±0.00150.0415±0.00130.0062±0.00270.0060±0.00180.9585±0.00130.9984±0.0012 T-LDL 1.8 (1) (2) (2) (2) (1) (3) 0.0480±0.00200.0417±0.00170.0062±0.00280.0061±0.00210.9583±0.00170.9984±0.0011 LDLLC 2.7 (2) (3) (3) (3) (3) (2) 0.487940.02420.4156±0.01920.5416±0.04380.906940.15800.5844±0.01920.8113±0.0186 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0516±0.00290.0447±0.00240.0071±0.00090.00710.00090.9553±0.00240.9982±0.0003 PT-SVM 6.3 (6) (6) (7) (7) (6) (6 0.0512±0.00190.0443±0.00170.0071±0.00070.0070±0.00070.9557±0.00170.9982±0.0002 AA-kNN 5.3 (5) () (6 (6 (5) (5) 0.0622±0.00320.0531±0.00290.0097±0.00120.012240.00370.9465±0.00240.9969±0.0011 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0535±0.00230.0480±0.00230.0068±0.00050.0068±0.00050.9520±0.00230.9983±0.0013 SA-IIS 5.5 (7) (7) (4) (4) (7) (4) 0.0495±.0019 0.0409±0.00170.0058±0.00050.0054±0.00040.9584±0.0023 0.9989±0.0010 SA-BFGS 1.5 (3) (1) (1) (1) (2) (1) 0.0508±0.00220.0440±0.00180.0069±0.00070.0068±0.00080.9560±0.00180.9982±0.0003 EDL 4.7 (4) (4) (5) (⑤) (4) (6) 3.4讨论条件。实验证明在本文场景中，三角距离更加各种算法通常在不同的数据集上具有不同的合适。排名，表明每种算法都有其合适的应用场景，如 EDL算法更适用于文本情绪分类场景。不同评 4 结束语价指标下同一算法的不同排名，反映了6项评价为了进一步提高标签分布学习算法的预测性指标的多样性。在比较不同方法对新数据集的预能，本文提出了三角距离相关性的标签分布学习测效果时，应综合考虑多个评价指标。算法。新的三角距离可以充分考虑向量本身和向与同样考虑标签相关性的LDLLC算法相比，量之差，能更好地描述标签之间的相关性。实验 T-LDL算法在绝大多数数据集上的表现均优于结果表明，本文的方法比大多数现有的方法表现 LDLLC算法。LDLLC算法基于皮尔逊相关系数更好。表征标签相关性，而T-LDL算法基于本文设计的未来的工作将尝试从以下几个方面提高标签三角距离。皮尔逊相关系数要求输入的2个向量分布学习方法的性能：1)采用属性约简以降低算满足线性相关，而本文设计的三角距离无该约束法的时间复杂度：2)使用其他度量取代作为目标

3.4 讨论各种算法通常在不同的数据集上具有不同的排名，表明每种算法都有其合适的应用场景，如 EDL 算法更适用于文本情绪分类场景。不同评价指标下同一算法的不同排名，反映了 6 项评价指标的多样性。在比较不同方法对新数据集的预测效果时，应综合考虑多个评价指标。与同样考虑标签相关性的 LDLLC 算法相比， T-LDL 算法在绝大多数数据集上的表现均优于 LDLLC 算法。LDLLC 算法基于皮尔逊相关系数表征标签相关性，而 T-LDL 算法基于本文设计的三角距离。皮尔逊相关系数要求输入的 2 个向量满足线性相关，而本文设计的三角距离无该约束条件。实验证明在本文场景中，三角距离更加合适。 4 结束语为了进一步提高标签分布学习算法的预测性能，本文提出了三角距离相关性的标签分布学习算法。新的三角距离可以充分考虑向量本身和向量之差，能更好地描述标签之间的相关性。实验结果表明，本文的方法比大多数现有的方法表现更好。未来的工作将尝试从以下几个方面提高标签分布学习方法的性能：1) 采用属性约简以降低算法的时间复杂度；2) 使用其他度量取代作为目标续表 13 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 PT-SVM 0.0753±0.0080 (5) 0.0654±0.006 9 (6) 0.014 7±0.003 3 (5) 0.014 6±0.0033 (5) 0.934 6±0.0069 (6) 0.9963±0.0008 (5) 5.3 AA-kNN 0.0724±0.0027 (3) 0.0630±0.002 4 (3) 0.013 6±0.001 1 (3) 0.013 6±0.0011 (3) 0.937 0±0.0024 (3) 0.9966±0.0003 (4) 3.2 AA-BP 0.0838±0.0045 (8) 0.0710±0.002 7 (8) 0.017 8±0.001 1 (8) 0.016 3±0.0030 (8) 0.932 8±0.0029 (8) 0.9952±0.0017 (8) 8.0 SA-IIS 0.0767±0.0004 (6) 0.0653±0.003 4 (5) 0.015 7±0.001 5 (7) 0.015 5±0.0015 (7) 0.934 7±0.0034 (5) 0.9960±0.0039 (7) 6.2 SA-BFGS 0.0745±0.0004 (4) 0.0641±0.003 5 (3) 0.013 9±0.001 3 (3) 0.014 3±0.0015 (3) 0.934 8±0.0035 (3) 0.9968±0.0036 (2) 3.0 EDL 0.0771±0.0018 (7) 0.0668±0.001 6 (7) 0.015 4±0.000 9 (6) 0.015 3±0.0009 (6) 0.933 2±0.0016 (7) 0.9961±0.0003 (6) 6.5 表 14 Dtt 数据集上的实验结果 Table 14 Experimental results on the Dtt dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0477±0.0015 (1) 0.0415±0.001 3 (2) 0.006 2±0.002 7 (2) 0.006 0±0.0018 (2) 0.958 5±0.0013 (1) 0.9984±0.0012 (3) 1.8 LDLLC 0.0480±0.0020 (2) 0.0417±0.001 7 (3) 0.006 2±0.002 8 (3) 0.006 1±0.0021 (3) 0.958 3±0.0017 (3) 0.9984±0.0011 (2) 2.7 PT-Bayes 0.4879±0.0242 (9) 0.4156±0.019 2 (9) 0.541 6±0.043 8 (9) 0.906 9±0.1580 (9) 0.584 4±0.0192 (9) 0.8113±0.0186 (9) 9.0 PT-SVM 0.0516±0.0029 (6) 0.0447±0.002 4 (6) 0.007 1±0.000 9 (7) 0.007 1±0.0009 (7) 0.955 3±0.0024 (6) 0.9982±0.0003 (6) 6.3 AA-kNN 0.0512±0.0019 (5) 0.0443±0.001 7 (5) 0.007 1±0.000 7 (6) 0.007 0±0.0007 (6) 0.955 7±0.0017 (5) 0.9982±0.0002 (5) 5.3 AA-BP 0.0622±0.0032 (8) 0.0531±0.002 9 (8) 0.009 7±0.001 2 (8) 0.012 2±0.0037 (8) 0.946 5±0.0024 (8) 0.9969±0.0011 (8) 8.0 SA-IIS 0.0535±0.0023 (7) 0.0480±0.002 3 (7) 0.006 8±0.000 5 (4) 0.006 8±0.0005 (4) 0.952 0±0.0023 (7) 0.9983±0.0013 (4) 5.5 SA-BFGS 0.0495±.0019 (3) 0.0409±0.001 7 (1) 0.005 8±0.000 5 (1) 0.005 4±0.0004 (1) 0.958 4±0.0023 (2) 0.9989±0.0010 (1) 1.5 EDL 0.0508±0.0022 (4) 0.0440±0.001 8 (4) 0.006 9±0.000 7 (5) 0.006 8±0.0008 (5) 0.956 0±0.0018 (4) 0.9982±0.0003 (6) 4.7 ·456· 智能系统学报第 16 卷

第3期黄雨婷，等：三角距离相关性的标签分布学习 ·457· 函数基础的KL散度；3)利用新的距离映射函数 correlations and missing labels[Cl//Proceedings of the 表示标签的相关性。 28th AAAI Conference on Artificial Intelligence.Quebec City,Canada.2014:1680-1686 参考文献： [11]HUANG Shengjun,ZHOU Zhihua.Multi-label learning by exploiting label correlations locally[C]//Proceedings of [1]GENG Xin.Label distribution learning[J].IEEE transac- the 26th AAAI Conference on Artificial Intelligence tions on knowledge and data engineering,2016,28(7): Toronto,Canada,2012:949-955 17341748. [12]GENG Xin,WANG Qin,XIA Yu.Facial age estimation [2]JIA Xiuyi,ZHENG Xiang,LI Weiwei,et al.Facial emo- by adaptive label distribution learning[C]//Proceedings of tion distribution learning by exploiting low-rank label cor- the 22nd International Conference on Pattern Recognition. relations locally[C]//Proceedings of 2019 IEEE/CVF Con- Stockholm,Sweden,2014:4465-4470 ference on Computer Vision and Pattern Recognition. [13]ZHANG Zhaoxiang,WANG Mo,GENG Xin.Crowd Long Beach,USA,2019:9841-9850. counting in public video surveillance by label distribution [3]YANG Xu,GAO Binbin,XING Chao,et al.Deep label learning[J].Neurocomputing,2015,166:151-163. distribution learning for apparent age estimation[C]//Pro- [14]GENG Xin,YIN Chao,ZHOU Zhihua.Facial age estima- ceedings of 2015 IEEE International Conference on Com- tion by learning from label distributions[J].IEEE transac- puter Vision Workshops.Santiago,Chile,2015:102-108. tions on pattern analysis and machine intelligence,2013, [4]ZHANG Hengru,HUANG Yuting,XU Yuanyuan,et al. 35(10):2401-2412 COS-LDL:label distribution learning by cosine-based dis- [15]GENG Xin,LING Miaogen.Soft video parsing by tance-mapping correlation[J].IEEE access,2020,8: label distribution learning[C].Proceedings of the 31th 63961-63970. AAAI Conference on Artificial Intelligence.San Fran- [5]邵东恒，杨文元，赵红.应用k-means算法实现标记分布 cisco,USA,2017:1331-1337. 学习[).智能系统学报，2017,12(3)：325-332 [16]JIA Xiuyi,LI Weiwei,LIU Junyu,et al.Label distribu- SHAO Dongheng,YANG Wenyuan,ZHAO Hong.Label tion learning by exploiting label correlations[C]//Proceed- distribution learning based on k-means algorithm[J].CAAI ings of the 32nd AAAI Conference on Artificial Intelli- transactions on intelligent systems,2017,12(3):325-332. gence.New Orleans,USA,2018:3310-3317. [6]刘玉杰，唐顺静，高永标，等.基于标签分布学习的视频 [17]ZHENG Xiang,JIA Xiuyi,LI Weiwei.Label distribution 摘要算法「J刀.计算机轴助设计与图形学学报，2019. learning by exploiting sample correlations locally[Cl// 31(1):104110 Proceedings of the 32nd AAAI Conference on Artificial LIU Yujie.TANG Shunjing.,GAO Yongbiao,et al.Label Intelligence.New Orleans,USA,2018:4556-4563. distribution learning for video summarization[J].Journal of [18]KULLBACK S,LEIBLER R A.On information and suf- computer-aided design&computer graphics,2019,31(1): ficiency[J].The annals of mathematical statistics,1951, 104-110. 22(179-86. [7]王一宾，田文泉，程玉胜.基于标记分布学习的异态集成 [19]DANIELSSON P E.Euclidean distance mapping[J]. 学习算法[.模式识别与人工智能，2019,32(10)： Computer graphics and image processing,1980,14(3): 945-954 227-248. WANG Yibin,TIAN Wenquan,CHENG Yusheng.Het- [20]SORENSEN T.A method of establishing groups of equal erogeneous ensemble learning algorithm based on label amplitude in plant sociology based on similarity of spe- distribution learning[J].Pattern recognition and artificial cies content,and its application to analyses of the vegeta- intelligence,.2019,32(10):945-954. tion on Danish commons[J].Kongelige danske [8]耿新，徐宁.标记分布学习与标记增强).中国科学：信 videnskabernes selskab biologiske skrifter,1948,5(4): 息科学，2018,48(5：521-530. 1-34. GENG Xin,XU Ning.Label distribution learning and la- [21]GAVIN D G.OSWALD WW.WAHL E R.et al.A stat- bel enhancement[J].Scientia sinica informationis,2018, istical approach to evaluating distance metrics and analog 48(5):521-530. assignments for pollen records[J].Quaternary research, [9]ZHANG Mingling,ZHANG Kun.Multi-label learning by 2003,60(3):356-367. exploiting label dependency[C]//Proceedings of the 16th [22]DUDA R O.HART P E.STORK D G.Pattern classifica- ACM SIGKDD International Conference on Knowledge tion[M].2nd ed.New York:Wiley,2000. Discovery and Data Mining.Washington,USA,2010: [23]DEZA E,DEZA MM.Dictionary of distances[M].Ams- 999-1007. terdam:Elsevier,2006. [10]BI Wei,KWOK JT.Multilabel classification with label [24]JEGOU H.DOUZE M,SCHMID C.Hamming embed-

函数基础的 KL 散度；3) 利用新的距离映射函数表示标签的相关性。参考文献： GENG Xin. Label distribution learning[J]. IEEE transactions on knowledge and data engineering, 2016, 28(7): 1734–1748. [1] JIA Xiuyi, ZHENG Xiang, LI Weiwei, et al. Facial emotion distribution learning by exploiting low-rank label correlations locally[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 9841−9850. [2] YANG Xu, GAO Binbin, XING Chao, et al. Deep label distribution learning for apparent age estimation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshops. Santiago, Chile, 2015: 102−108. [3] ZHANG Hengru, HUANG Yuting, XU Yuanyuan, et al. COS-LDL: label distribution learning by cosine-based distance-mapping correlation[J]. IEEE access, 2020, 8: 63961–63970. [4] 邵东恒, 杨文元, 赵红. 应用 k-means 算法实现标记分布学习 [J]. 智能系统学报, 2017, 12(3): 325–332. SHAO Dongheng, YANG Wenyuan, ZHAO Hong. Label distribution learning based on k-means algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(3): 325–332. [5] 刘玉杰, 唐顺静, 高永标, 等. 基于标签分布学习的视频摘要算法 [J]. 计算机辅助设计与图形学学报, 2019, 31(1): 104–110. LIU Yujie, TANG Shunjing, GAO Yongbiao, et al. Label distribution learning for video summarization[J]. Journal of computer-aided design & computer graphics, 2019, 31(1): 104–110. [6] 王一宾, 田文泉, 程玉胜. 基于标记分布学习的异态集成学习算法 [J]. 模式识别与人工智能, 2019, 32(10): 945–954. WANG Yibin, TIAN Wenquan, CHENG Yusheng. Heterogeneous ensemble learning algorithm based on label distribution learning[J]. Pattern recognition and artificial intelligence, 2019, 32(10): 945–954. [7] 耿新, 徐宁. 标记分布学习与标记增强 [J]. 中国科学: 信息科学, 2018, 48(5): 521–530. GENG Xin, XU Ning. Label distribution learning and label enhancement[J]. Scientia sinica informationis, 2018, 48(5): 521–530. [8] ZHANG Mingling, ZHANG Kun. Multi-label learning by exploiting label dependency[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, USA, 2010: 999−1007. [9] [10] BI Wei, KWOK J T. Multilabel classification with label correlations and missing labels[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014: 1680−1686. HUANG Shengjun, ZHOU Zhihua. Multi-label learning by exploiting label correlations locally[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence. Toronto, Canada, 2012: 949−955. [11] GENG Xin, WANG Qin, XIA Yu. Facial age estimation by adaptive label distribution learning[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden, 2014: 4465−4470. [12] ZHANG Zhaoxiang, WANG Mo, GENG Xin. Crowd counting in public video surveillance by label distribution learning[J]. Neurocomputing, 2015, 166: 151–163. [13] GENG Xin, YIN Chao, ZHOU Zhihua. Facial age estimation by learning from label distributions[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(10): 2401–2412. [14] GENG Xin, LING Miaogen. Soft video parsing by label distribution learning[C]. Proceedings of the 31th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 1331−1337. [15] JIA Xiuyi, LI Weiwei, LIU Junyu, et al. Label distribution learning by exploiting label correlations[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 3310−3317. [16] ZHENG Xiang, JIA Xiuyi, LI Weiwei. Label distribution learning by exploiting sample correlations locally[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 4556−4563. [17] KULLBACK S, LEIBLER R A. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1): 79–86. [18] DANIELSSON P E. Euclidean distance mapping[J]. Computer graphics and image processing, 1980, 14(3): 227–248. [19] SØRENSEN T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content, and its application to analyses of the vegetation on Danish commons[J]. Kongelige danske videnskabernes selskab biologiske skrifter, 1948, 5(4): 1–34. [20] GAVIN D G, OSWALD W W, WAHL E R, et al. A statistical approach to evaluating distance metrics and analog assignments for pollen records[J]. Quaternary research, 2003, 60(3): 356–367. [21] DUDA R O, HART P E, STORK D G. Pattern classification[M]. 2nd ed. New York: Wiley, 2000. [22] DEZA E, DEZA M M. Dictionary of distances[M]. Amsterdam: Elsevier, 2006. [23] [24] JEGOU H, DOUZE M, SCHMID C. Hamming embed- 第 3 期黄雨婷，等：三角距离相关性的标签分布学习 ·457·