第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992/tis.202001027 三角距离相关性的标签分布学习 黄雨婷,徐媛媛,张恒汝,闵帆 (西南石油大学计算机科学学院,四川成都610500) 摘要:针对标签相关性的表征问题,提出一种基于三角距离相关性的标签分布学习算法。首先,构建距离映 射矩阵,描述标签分布和特征矩阵之间的映射关系。其次,设计新的三角距离,以表征标签之间的相关性。最 后,结合标签相关性,设计基于Kullback-Leibler散度的目标函数。在8个数据集上的实验结果表明,与8种主 流算法相比,本文提出的算法在6个准确性指标上占优势。 关键词:标签分布学习:标签相关性;三角距离:距离映射矩阵:多标签学习:最大嫡模型:Kullback-Leibler散 度:L-BFGS方法 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2021)03-0449-10 中文引用格式:黄雨婷,徐媛媛,张恒汝,等.三角距离相关性的标签分布学习W.智能系统学报,2021,16(3):449-458. 英文引用格式:HUANG Yuting,XU Yuanyuan,ZHANG Hengru,etal.Label distribution learning based on triangular distance correlation[J.CAAI transactions on intelligent systems,2021,16(3):449-458. Label distribution learning based on triangular distance correlation HUANG Yuting,XU Yuanyuan,ZHANG Hengru,MIN Fan (College of Computer Science,Southwest Petroleum University,Chengdu 610500,China) Abstract:Aiming at the representation problem of label correlation,a label distribution learning algorithm based on tri- angular distance correlation is proposed in this paper.First,a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix.Then a new triangle distance is designed to characterize the correlation between the labels.Finally,based on the label correlation,the Kullback-Leibler divergence- based objective function is designed.Results on eight datasets show that the proposed algorithm is superior in six evalu- ation measures in terms of accuracy compared with eight mainstream algorithms. Keywords:label distribution learning;label correlation;triangular distance;distance mapping matrix;multi-label learn- ing;maximum entropy model;Kullback-Leibler divergence;L-BFGS method 标签分布学习(label distribution learning,LDL)提出了LDLLC(label distribution learning by exploit- 是多标签学习(muti--label earing,MLL)的泛化。 ing label correlation)算法,使用皮尔逊相关系数 MLL用标签集的部分标签来描述实例,LDL 描述了标签之间的相关性。Zheng等1提出了 用标签集所有标签的表征程度构成的分布来描述 LDL-SCL(label distribution learning by exploiting 实例2-1。文献[l2]将年龄估计问题泛化到LDL sample correlation locally)算法,考虑实例之间的相 中,降低了平均绝对误差(mean absolute deviation, 关性。后2种方法显著提高了模型对标签分布的 MAE)。文献[I3]将人群计数问题泛化到LDL中, 预测能力。 提高了人群计数的准确率。 本文提出了一种三角距离相关性的标签分布 Geng等W提出了SA-IS(specialized algorithm 学习算法(label distribution learning based on trian- improithm Iternative scaling)算法,将单个标签数据 gular distance correlation,T-LDL)o首先,令X和D 转换为分布数据,但未考虑标签的相关性。Ja等 分别表示特征矩阵和标签分布矩阵,构建距离映 射矩阵0描述X和D之间的映射关系。其次,设 收稿日期:2020-01-20. 基金项目:国家自然科学基金项目(61902328). 计新的相似度距离,以表征标签之间的相关性。 通信作者:张恒汝.E-mail:zhanghrswpu(@l63.com 最后,结合标签相关性,设计基于KL(kullback-lei-
DOI: 10.11992/tis.202001027 三角距离相关性的标签分布学习 黄雨婷,徐媛媛,张恒汝,闵帆 (西南石油大学 计算机科学学院,四川 成都 610500) 摘 要:针对标签相关性的表征问题,提出一种基于三角距离相关性的标签分布学习算法。首先,构建距离映 射矩阵,描述标签分布和特征矩阵之间的映射关系。其次,设计新的三角距离,以表征标签之间的相关性。最 后,结合标签相关性,设计基于 Kullback-Leibler 散度的目标函数。在 8 个数据集上的实验结果表明,与 8 种主 流算法相比,本文提出的算法在 6 个准确性指标上占优势。 关键词:标签分布学习;标签相关性;三角距离;距离映射矩阵;多标签学习;最大熵模型;Kullback-Leibler 散 度;L-BFGS 方法 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)03−0449−10 中文引用格式:黄雨婷, 徐媛媛, 张恒汝, 等. 三角距离相关性的标签分布学习 [J]. 智能系统学报, 2021, 16(3): 449–458. 英文引用格式:HUANG Yuting, XU Yuanyuan, ZHANG Hengru, et al. Label distribution learning based on triangular distance correlation[J]. CAAI transactions on intelligent systems, 2021, 16(3): 449–458. Label distribution learning based on triangular distance correlation HUANG Yuting,XU Yuanyuan,ZHANG Hengru,MIN Fan (College of Computer Science, Southwest Petroleum University, Chengdu 610500, China) Abstract: Aiming at the representation problem of label correlation, a label distribution learning algorithm based on triangular distance correlation is proposed in this paper. First, a distance-mapping matrix is constructed to describe the mapping relationship between the label distribution and the feature matrix. Then a new triangle distance is designed to characterize the correlation between the labels. Finally, based on the label correlation, the Kullback-Leibler divergencebased objective function is designed. Results on eight datasets show that the proposed algorithm is superior in six evaluation measures in terms of accuracy compared with eight mainstream algorithms. Keywords: label distribution learning; label correlation; triangular distance; distance mapping matrix; multi-label learning; maximum entropy model; Kullback-Leibler divergence; L-BFGS method 标签分布学习 (label distribution learning,LDL) 是多标签学习 (muti-label learning,MLL) 的泛化[1-8]。 MLL 用标签集的部分标签来描述实例[9-11] ,LDL 用标签集所有标签的表征程度构成的分布来描述 实例[12-15]。文献 [12] 将年龄估计问题泛化到 LDL 中,降低了平均绝对误差 (mean absolute deviation, MAE)。文献 [13] 将人群计数问题泛化到 LDL 中, 提高了人群计数的准确率。 Geng 等 [1] 提出了 SA-IIS(specialized algorithm improithm lternative scaling) 算法,将单个标签数据 转换为分布数据,但未考虑标签的相关性。Jia 等 [16] 提出了 LDLLC(label distribution learning by exploiting label correlation) 算法,使用皮尔逊相关系数 描述了标签之间的相关性。Zheng 等 [17] 提出了 LDL-SCL(label distribution learning by exploiting sample correlation locally) 算法,考虑实例之间的相 关性。后 2 种方法显著提高了模型对标签分布的 预测能力。 本文提出了一种三角距离相关性的标签分布 学习算法 (label distribution learning based on triangular distance correlation,T-LDL)。首先,令 X 和 D 分别表示特征矩阵和标签分布矩阵,构建距离映 射矩阵 θ 描述 X 和 D 之间的映射关系。其次,设 计新的相似度距离,以表征标签之间的相关性。 最后,结合标签相关性,设计基于 KL (kullback-lei- 收稿日期:2020−01−20. 基金项目:国家自然科学基金项目 (61902328). 通信作者:张恒汝. E-mail:zhanghrswpu@163.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
·450· 智能系统学报 第16卷 bler divergence)散度I的目标函数,利用从训练 表征度较高,{森林,沙漠}2个标签对图1(a)的表 数据直接获取的X和D拟合0以预测标签分布。 征度较低。 在8个真实数据集上,将本文提出算法与8种 主流算法进行对比实验,利用Euclidean距离I例 Sorensen距离o、Squardx距离u、KL散度u、In- tersection相似度2a和Fidelity相似度2共6种指 标进行评价。结果表明,本文提出的算法在其中 3个数据集上所有指标均为最优,在其余的数据 集上部分指标占优。 1相关工作 (a)示例图 1.0 首先提出LDL的问题描述与运行实例,然后 0.8 讨论流行的LDL算法及其目标函数。表1列出 0.6 了本文的符号系统。 0.4 表1符号系统 0.2 Table 1 Notations 符号 含义 0 森林海洋沙漠城市 森林海洋沙漠城市 R q维的输入空间 (b)多标签学习 (c)标签分布学习 上 完整标签集 图1MLL与LDL的比较 训练集 Fig.1 Differences between MLL and LDL 第个实例 表2和表3为一个标签分布学习的运行实例, d x对应的实际标签分布 分别为特征矩阵X和实际标签分布矩阵D,这里 Pi x对应的预测标签分布 S={(x1,d1),(x2,d2),…,(x4,d)},q=5,c=4。{天 Xir 第个实例的第r个特征 空,水,房屋,沙子,树木}5个特征表征了图1(a) dy 第个标签对x,的实际表征度 中包含的信息。{森林,海洋,城市,沙漠}为完整 a 距离映射矩阵 + 标签集。以加粗行为例,x1=[0.38,0.35,0.00,0.12, 特征矩阵 0.15],d1=[0.16,0.55,0.10,0.19],其中x1=0.38表 D 实际标签分布矩阵 示天空占图片面积的38%,d:=0.16表示森林描 1.1LDL问题描述 述该图片的程度为16%。 标签分布学习相对于单标签和多标签学习而 表2特征矩阵X 言,以一种更自然的方式去标记实例,并且为它 Table 2 Feature matrix X 的每个可能的标签分配一个数值。下面给出它的 特征分布 天空 水 房屋沙子 树木 形式化定义四。令X=R为q维输入空间,表示 X1 0.380.350.00 0.12 0.15 特征矩阵;Y={,2,…,}为完整标签集,c为标 0.12 0.20 0.50 0.11 0.07 签的数量;D表示实际标签分布矩阵;给定一个 X3 0.11 0.10 0.05 0.19 0.55 0.20 0.01 0.07 0.70 0.02 训练集S={XD}={x,d},{x2,d},…,{xm,dn}. 其中x,=[x1x2…x]∈X为第i个实例,d,= 表3 标签分布矩阵D [d1d2…de]∈[0,l]为x对应的实际标签分布, Table 3 Label distribution matrix D d是标签y对x的实际表征度,且d=l。 类别 森林 海洋 沙漠 城市 d 0.16 0.55 0.10 0.19 1.2运行实例 d 0.14 0.20 0.10 0.56 图1(a)为需要标记的一个示例图片2,其完 d3 0.85 0.05 0.03 0.07 整标签集为{森林,海洋,沙漠,城市}。图1b)表明 0.10 0.05 0.76 0.09 MLL中仅有{海洋,城市}2个标签能够描述图l(a)。 X和D之间的映射关系可以通过距离映射矩 图1(c)说明LDL利用这4个标签构成的分布来 阵0来描述。给定训练集后,LDL的目标为学习 描述该图片,且{海洋,城市}2个标签对图1(a)的 到该距离映射矩阵6,再通过0计算出预测标
bler divergence) 散度[18] 的目标函数,利用从训练 数据直接获取的 X 和 D 拟合 θ 以预测标签分布。 在 8 个真实数据集上,将本文提出算法与 8 种 主流算法进行对比实验,利用 Euclidean 距离[19] 、 Sørensen 距离[20] 、Squardχ2 距离[21] 、KL 散度[18] 、Intersection 相似度[22] 和 Fidelity 相似度[23] 共 6 种指 标进行评价。结果表明,本文提出的算法在其中 3 个数据集上所有指标均为最优,在其余的数据 集上部分指标占优。 1 相关工作 首先提出 LDL 的问题描述与运行实例,然后 讨论流行的 LDL 算法及其目标函数。表 1 列出 了本文的符号系统。 表 1 符号系统 Table 1 Notations 符号 含义 R q q维的输入空间 Y 完整标签集 S 训练集 xi 第i个实例 di xi对应的实际标签分布 pi xi对应的预测标签分布 xir 第i个实例的第r个特征 dij 第j个标签对xi的实际表征度 θ 距离映射矩阵 X 特征矩阵 D 实际标签分布矩阵 1.1 LDL 问题描述 ∑c j=1 di j = 1 标签分布学习相对于单标签和多标签学习而 言,以一种更自然的方式去标记实例,并且为它 的每个可能的标签分配一个数值。下面给出它的 形式化定义[1]。令 X = R q 为 q 维输入空间,表示 特征矩阵;Y = {y1 , y2 , …, yc}为完整标签集,c 为标 签的数量;D 表示实际标签分布矩阵;给定一个 训练集 S = {X, D} = {{x1 , d1}, {x2 , d2},…,{xn , dn}}, 其中 xi = [xi 1 xi 2 … xi q ]∈X 为第 i 个实例, di = [di1 di2 … dic]∈[0,1]c 为 xi 对应的实际标签分布, dij 是标签 yj 对 xi 的实际表征度,且 。 1.2 运行实例 图 1(a) 为需要标记的一个示例图片[24] ,其完 整标签集为{森林,海洋,沙漠,城市}。图 1(b) 表明 MLL 中仅有{海洋,城市}2 个标签能够描述图 1(a)。 图 1(c) 说明 LDL 利用这 4 个标签构成的分布来 描述该图片,且{海洋,城市}2 个标签对图 1(a) 的 表征度较高,{森林,沙漠}2 个标签对图 1(a) 的表 征度较低。 (a) 示例图 森林 海洋 沙漠 城市 0 1 dij dij 森林 海洋 沙漠 城市 1.0 0.8 0.6 0.4 0.2 0 (b) 多标签学习 (c) 标签分布学习 图 1 MLL 与 LDL 的比较 Fig. 1 Differences between MLL and LDL 表 2 和表 3 为一个标签分布学习的运行实例, 分别为特征矩阵 X 和实际标签分布矩阵 D,这里 S = {(x1 ,d1 ), (x2 , d2 ), …, (x4 , d4 )},q = 5,c = 4。{天 空,水,房屋,沙子,树木}5 个特征表征了图 1(a) 中包含的信息。{森林,海洋,城市,沙漠}为完整 标签集。以加粗行为例,x1 = [0.38, 0.35, 0.00, 0.12, 0.15],d1 = [0.16, 0.55, 0.10, 0.19],其中 x11 = 0.38 表 示天空占图片面积的 38%,d11 = 0.16 表示森林描 述该图片的程度为 16%。 表 2 特征矩阵 X Table 2 Feature matrix X 特征分布 天空 水 房屋 沙子 树木 x1 0.38 0.35 0.00 0.12 0.15 x2 0.12 0.20 0.50 0.11 0.07 x3 0.11 0.10 0.05 0.19 0.55 x4 0.20 0.01 0.07 0.70 0.02 表 3 标签分布矩阵 D Table 3 Label distribution matrix D 类别 森林 海洋 沙漠 城市 d1 0.16 0.55 0.10 0.19 d2 0.14 0.20 0.10 0.56 d3 0.85 0.05 0.03 0.07 d4 0.10 0.05 0.76 0.09 X 和 D 之间的映射关系可以通过距离映射矩 阵 θ 来描述。给定训练集后,LDL 的目标为学习 到该距离映射矩阵 θ [16] ,再通过 θ 计算出预测标 ·450· 智 能 系 统 学 报 第 16 卷
第3期 黄雨婷,等:三角距离相关性的标签分布学习 ·451· 签分布矩阵P={p,p2,…,p},其中p,=[papn d P,Pg为标签y对x,的预测表征度,该表征度用 0=arg min (2) p(vix:0) 最大嫡模型的表示,如式(1)所示: 1.3 已有的LDL算法 表4列出了4种流行的LDL算法及其目标函 pyx;)月 (1) 数,表中第一行的SA-IS和SA-BFGS(special- 2n②a ized algorithm effective quasi-newton)两种算法使 用相同的目标函数,它们均采用KL散度表征所 为优化求解0,LDL算法的目标函数需约束 有实例的真实分布与预测分布之间的差异。前者 预测分布与真实分布之间的差异。文献[]构建 使用类似于改进迭代缩放的策略作为其优化方 了以KL散度为基础的目标函数,通过求解式 法,后者使用BFGS算法作为其优化方法。该目 (2),可得到最优距离映射矩阵0,即 标函数缺少正则项,易导致欠拟合。 表4已有的4种流行的LDL算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法 目标函数 d SA-IS、SA-BFGSIM 0=argmin =1 p6y;) LDLLCI6 0=argmin d p: )+hIo啡+2∑sn(Pdis) =1=1 EDLP网 =argmin2(du-p) 台台a+p0: wxe,-0tl旧 n k=1=1 =1j1k= LDLLC1在IS-LLD算法的目标函数基础上 本文设计的目标函数为 增加了正则项和标签相关性项。如表4中第2行 所示,等号右边第2项为距离映射矩阵0的F-范 ro-(3) 数,以防止过拟合。第3项为符号函数与不同距 式中:等号右侧第1项用KL散度表征所有实例 离共同决定的标签相关性项,其中符号函数由皮 的真实分布与预测分布之间的差异;等号右侧第 尔逊相关系数决定。但皮尔逊相关系数存在 二项为本文亮点,设计标签相关性项以获得更好 “2个输入向量间应有线性关系”的约束条件,而 的预测结果。 距离映射矩阵0中的任意2个向量要满足该条件 2.1 标签相关性 较为困难。 本文的亮点为结合三元相关性和距离相关性 EDL(emotion distribution learning from 来描述标签之间的相关性,如式(4)所示: texts)2通过采用新散度公式表征所有实例的真 n(0.0)=sgn(triangle(0,0)-Dis(0,0)(4) 实分布与预测分布之间的差异,并增加2个约束 式中:sgn(triangle(0,0)表征三元相关性,Dis(0: 项。如表4中第3行所示,等号右边第2项为距 0)表征距离相关性。sgn(triangle(0,0)》用三角距 离映射矩阵0的1-范数,以防止过拟合。第3项 离来表征标签之间存在何种相关性,即正相关 用不同标签的特征向量之差的2-范数,再乘以基 不相关或负相关;Dis(0,O)用Euclidean距离9表 于Plutchik的情绪轮得到的权重,表征不同标签 征标签之间的相关程度。 之间的关系。该算法在情绪分类场景下表现 由于使用皮尔逊相关系数时需要考虑任意 较好。 2个向量是否存在线性关系,故提出一种不考虑 该约束条件的新三角距离来衡量2个向量是否相 2本文工作 关。这里,仅考虑2个向量0g以及2个向量之差0-0, 设计该三角距离,且使得其取值范围为[-1,1],如 常见的LDL算法的输入为特征矩阵X与实 式(⑤)所示: 际标签分布矩阵D,输出为预测标签分布矩阵P, 构建距离映射矩阵0描述X和D之间的映射关 0-0)2 系。为了得到更精准的预测标签分布矩阵P,设 triangle(,) 计目标函数是LDL算法工作的重点。本节重点介 绍如何设计目标函数以及本文提出的T-LDL算法
签分布矩阵 P = {p1 , p2 , …, pi},其中 pi = [pi1 pi2 … pic],pij 为标签 yj 对 xi 的预测表征度,该表征度用 最大熵模型[25] 表示,如式 (1) 所示: p(yj |xi ;θ)= exp ∑q r=1 θkr xir ∑c k=1 exp ∑q r=1 θkr xir (1) 为优化求解 θ,LDL 算法的目标函数需约束 预测分布与真实分布之间的差异。文献 [1] 构建 了以 KL 散度为基础的目标函数,通过求解式 (2),可得到最优距离映射矩阵 θ * ,即 θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) (2) 1.3 已有的 LDL 算法 表 4 列出了 4 种流行的 LDL 算法及其目标函 数,表中第一行的 SA-IIS[1] 和 SA-BFGS(specialized algorithm effective quasi-newton)[1] 两种算法使 用相同的目标函数,它们均采用 KL 散度表征所 有实例的真实分布与预测分布之间的差异。前者 使用类似于改进迭代缩放的策略作为其优化方 法,后者使用 BFGS 算法作为其优化方法。该目 标函数缺少正则项,易导致欠拟合。 表 4 已有的 4 种流行的 LDL 算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法 目标函数 SA-IIS、SA-BFGS[1] θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) LDLLC[16] θ ∗= argmin θ ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ||θ||2 F +λ2 ∑c i=1 ∑c j=1 sgn(ρθi,θj )dis(ρθi,θj ) EDL[26] θ ∗= argmin θ 2 ∑n i=1 ∑c j=1 (di j − p(yj |xi ;θ))2 (di j + p(yj |xi ;θ))2 + λ1 n ∑c k=1 ∑q r=1 |θkr|1+ λ2 n ∑c u=1 ∑q j=1 ∑q k=1 ωjk||θu j −θuk||2 2 LDLLC[16] 在 IIS-LLD 算法的目标函数基础上 增加了正则项和标签相关性项。如表 4 中第 2 行 所示,等号右边第 2 项为距离映射矩阵 θ 的 F-范 数,以防止过拟合。第 3 项为符号函数与不同距 离共同决定的标签相关性项,其中符号函数由皮 尔逊相关系数决定。但皮尔逊相关系数存在 “2 个输入向量间应有线性关系”的约束条件,而 距离映射矩阵 θ 中的任意 2 个向量要满足该条件 较为困难。 EDL(emotion distribution learning from texts)[26] 通过采用新散度公式表征所有实例的真 实分布与预测分布之间的差异,并增加 2 个约束 项。如表 4 中第 3 行所示,等号右边第 2 项为距 离映射矩阵 θ 的 1-范数,以防止过拟合。第 3 项 用不同标签的特征向量之差的 2-范数,再乘以基 于 Plutchik 的情绪轮得到的权重,表征不同标签 之间的关系。该算法在情绪分类场景下表现 较好。 2 本文工作 常见的 LDL 算法的输入为特征矩阵 X 与实 际标签分布矩阵 D,输出为预测标签分布矩阵 P, 构建距离映射矩阵 θ 描述 X 和 D 之间的映射关 系。为了得到更精准的预测标签分布矩阵 P,设 计目标函数是 LDL 算法工作的重点。本节重点介 绍如何设计目标函数以及本文提出的 T-LDL 算法。 本文设计的目标函数为 T(θ) = ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ∑c i=1 ∑c j=1 η ( θi ,θj ) (3) 式中:等号右侧第 1 项用 KL 散度表征所有实例 的真实分布与预测分布之间的差异;等号右侧第 二项为本文亮点,设计标签相关性项以获得更好 的预测结果。 2.1 标签相关性 本文的亮点为结合三元相关性和距离相关性 来描述标签之间的相关性,如式 (4) 所示: η ( θi ,θj ) = sgn(triangle ( θi ,θj ) )·Dis( θi ,θj ) (4) 式中:sgn(triangle(θi , θj )) 表征三元相关性,Dis(θi , θj ) 表征距离相关性。sgn(triangle(θi , θj )) 用三角距 离来表征标签之间存在何种相关性,即正相关、 不相关或负相关;Dis(θi , θj ) 用 Euclidean 距离[19] 表 征标签之间的相关程度。 由于使用皮尔逊相关系数时需要考虑任意 2 个向量是否存在线性关系,故提出一种不考虑 该约束条件的新三角距离来衡量 2 个向量是否相 关。这里,仅考虑2个向量θi、θj以及2个向量之差θi−θj, 设计该三角距离,且使得其取值范围为 [−1,1],如 式 (5) 所示: triangle ( θi ,θj ) = 1− 2 √∑m k=1 (θik −θjk) 2 √∑m k=1 θik 2 + √∑m k=1 θjk 2 (5) 第 3 期 黄雨婷,等:三角距离相关性的标签分布学习 ·451·
·452· 智能系统学报 第16卷 将该三角距离代入符号函数,用于判断标签 表5数据集 之间存在何种相关性:正相关、不相关或负相关。 Table 5 Datasets 1, 0 由于上述部分只能判断标签之间存在何种相 Heat 2465 24 6 关性,并不能判断标签之间的相关程度,故引入 Euclidean距离9表示标签之间的相关程度: Spo 2465 24 6 Cold 2465 24 4 Dis(0,0) (0k-0)月 (7) Dtt 2465 24 4 2.2本文提出的T-LDL算法 Alpha数据集记录在a因子的影响下酵母在 T-LDL描述见算法1。首先将距离映射矩阵 有丝分裂期间的基因表达情况;Cdc数据集记录 0和逆拟Hessian矩阵Bo初始化为单位矩阵, 酵母在细胞分裂期间停滞的cdc-l5基因表达情 再通过式(3)计算初次目标函数的梯度7T(0。 况:E山数据集记录酵母经离心淘洗后的基因表 进入迭代,收敛条件为7T05,使用L-BFGS方法2列 度;d是标签y对x,的实际表征度;“」”表示“越 优化更新0和B: 小越好”;“↑”表示“越大越好”。 4)end if; 表6LDL算法的评价指标 5)1←-1+1: Table 6 Evaluation measures for the LDL algorithms 6)通过式(1)计算py:0)。 指标名称 公式 3实验及结果分析 Euclidean dis (Pu-di)2 本节首先介绍实验使用的8个数据集和6个 评价指标,再将本文提出的T-LDL算法与 Slp-dd LDLLC6、PT-Bayes!、PT-SVM,1I、AA-kNN,J Sorensen dis= AA-Bpl、SA-llS,1o、SA-BFGS(specialized al-- 2w+ gorithm effective quasi--newton)l,】和EDL26l 8种主流的LDL算法进行比较,最后对实验结果 Squard dis=pu-du) 进行讨论。 台p%+d西 3.1数据集 Kullback-Leibler (KL) dis=∑pw d 表5列出了从芽殖酵母的8个生物学实验中 收集得到的8个真实数据集2。实例为2465个 Intersection sim=∑nmin(pd) 酵母基因,特征是长度为24的系统发育谱,标签 1 为不同生物实验中的离散时间点,数量范围为 Fidelity sim=∑p,4 418。 =1
将该三角距离代入符号函数,用于判断标签 之间存在何种相关性:正相关、不相关或负相关。 sgn( triangle ( θi ,θj )) = 1, 0 ξ,使用 L-BFGS 方法[27] 优化更新 θ 和 B; 4)end if; 5)l ← l + 1; 6) 通过式 (1) 计算 p(yj |xi ;θ)。 3 实验及结果分析 本节首先介绍实验使用的 8 个数据集和 6 个 评价指标,再将本文提出 的 T-LD L 算 法 与 LDLLC[16] 、PT-Bayes[1] 、PT-SVM[1, 17] 、AA-kNN[1, 4] 、 AA-BP[1] 、SA-IIS[1, 16] 、SA-BFGS(specialized algorithm effective quasi-newton)[ 1 , 2 ] 和 EDL[ 2 6 ] 8 种主流的 LDL 算法进行比较,最后对实验结果 进行讨论。 3.1 数据集 表 5 列出了从芽殖酵母的 8 个生物学实验中 收集得到的 8 个真实数据集[28]。实例为 2 465 个 酵母基因,特征是长度为 24 的系统发育谱,标签 为不同生物实验中的离散时间点,数量范围为 4~18。 表 5 数据集 Table 5 Datasets 数据集名称 实例个数 特征个数 标签个数 Alpha 2 465 24 18 Cdc 2 465 24 15 Elu 2 465 24 14 Diau 2 465 24 7 Heat 2 465 24 6 Spo 2 465 24 6 Cold 2 465 24 4 Dtt 2 465 24 4 Alpha 数据集记录在 α 因子的影响下酵母在 有丝分裂期间的基因表达情况;Cdc 数据集记录 酵母在细胞分裂期间停滞的 cdc-15 基因表达情 况;Elu 数据集记录酵母经离心淘洗后的基因表 达情况;Diau 数据集记录酵母在双峰转换过程中 的基因表达情况;Heat 数据集记录酵母在经过高 温冲击后的基因表达情况;Spo 数据集记录酵母 在孢子形成过程中的基因表达情况;Cold 数据集 记录酵母经低温处理后的基因表达情况;Dtt 数据 集记录酵母经还原剂处理后的基因表达情况[28]。 3.2 评价指标 表 6 列出了评估 LDL 算法的 6 个评价指标的 名称和公式。其中,pij 是标签 yj 对 xi 的预测表征 度;dij 是标签 yj 对 xi 的实际表征度;“↓”表示“越 小越好”;“↑”表示“越大越好”。 表 6 LDL 算法的评价指标 Table 6 Evaluation measures for the LDL algorithms 指标名称 公式 Euclidean[19] ↓ dis = vt∑c j=1 (pi j −di j) 2 Sørensen[20] ↓ dis = ∑c j=1 |pi j −di j| ∑c j=1 |pi j +di j| Squard χ2[21] ↓ dis = ∑c j=1 ( pi j −di j)2 pi j +di j Kullback-Leibler (KL)[18] ↓ dis = ∑c j=1 pi j ln pi j di j Intersection[22] ↑ sim = ∑c j=1 min( pi j,di j) Fidelity[29] ↑ sim = ∑c j=1 √ pi jdi j ·452· 智 能 系 统 学 报 第 16 卷
第3期 黄雨婷,等:三角距离相关性的标签分布学习 ·453· 3.3 实验结果 对于数据集Elu和Cold,本文提出的方法在 表7~14的第1~6列列出了10次实验的平均 所有评价指标上都比其他8种方法表现更好。对 结果±标准差(当前方法性能的排名),末列为前 于数据集Alpha、Cdc和Heat,本文提出的方法在 6列平均性能排名。首先比较表7~14中的平均 大多数评价指标上排名第一。对于其余3个数据 值,如果平均值相同,再比较标准差。 集,本文提出的方法排在第二或者第三。 表7 Alpha数据集上的实验结果 Table 7 Experimental results on the Alpha dataset 算法 Euclideanl Sorensenl Squard KLI Intersection Fidelity 平均值 0.0231±0.00020.0378±0.00050.0055±0.00030.0055±0.0002 0.9622±0.00050.9986±.0002 T-LDL 1.2 (1) (1) (1) (1) (1) (2) 0.0232±0.00040.0379±0.0006 0.0056±0.00030.0055±0.0003 0.9621±0.0006 0.9986±.0001 LDLLC 1.8 (2) (2) (2) (2) (2) (1) 0.22980.01240.3485±0.0154 0.3879±0.02770.5607±0.07100.6515±0.01540.8777±0.0100 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0276±0.0006 0.0445±0.0009 0.0071±0.00030.0071±0.0003 0.9565±0.00090.9981±0.0001 PT-SVM 6.0 (6 (6) (6) (6) (6) (6) 0.0279±0.0006 0.0449±0.0012 0.0073±0.00030.0074±0.00040.9561±0.00120.9980±0.0001 AA-kNN 7.2 (7) (7) (7) (8) (7) (7) 0.08710.00700.1475±0.0131 0.1399±0.05010.0073±0.00580.8538±0.01170.983940.0017 AA-BP 7.8 (8) (8) (8) (7) (8) (8) 0.0269±0.0004 0.0429±0.0012 0.0069±0.00040.0069±0.00040.9571±0.00120.9983±0.0011 SA-IIS 4.7 (5) (4) (5) (5) (4) (5) 0.0251±0.0004 0.0408±0.0011 0.0063±0.0008 0.0063±0.0004 0.9574±0.0009 0.9985±0.0011 SA-BFGS 3.0 (3) (3) (3) (3) (3) (3) 0.0260±0.0011 0.0429±0.0022 0.0067±0.0006 0.0068±0.0006 0.9570±0.0022 0.9983±0.0002 EDL 4.3 (4) (5) (4) (4) ⑤ (4) 表8Cdc数据集上的实验结果 Table 8 Experimental results on the Cde dataset 算法 Euclideanl Sorensenl Squardx KLI Intersection↑ Fidelity 平均值 0.0280±0.00030.0428±0.00070.0071±0.00050.006940.00010.9587±0.0004 0.9984±0.0002 T-LDL 1.5 (1) (2) (2) (2) (1) (1) 0.0280±0.0005 0.0427±0.00090.0071±0.00070.0067±0.00050.9573±0.0009 0.9982±0.0003 LDLLC 2.2 (2) (1) (3) (1) (2) (4) 0.239940.01030.3455±0.0111 3853±0.02100.537440.05030.6545±0.0111 0.8778±0.0075 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0298±0.00070.0458±0.00120.0077±0.00040.0076±0.00040.9554±0.00120.9980±0.0001 PT-SVM 5.8 (5) (6) (6 (6) (6) (6 0.0301±0.00090.0462±0.00130.0080±0.00040.007940.00040.9538±0.00130.9980±0.0001 AA-kNN 6.8 (7 (7) (7) (7) (7) (6) 0.076940.00810.1192±0.01090.0842±0.02810.0511±0.01210.8829±0.01340.9879±0.0051 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.029040.00100.0445±0.00150.0073±0.00050.0072±0.00050.9556±0.00150.9982±0.0012 SA-IIS 5.0 (6) (4) (5 (5) (5) (5) 0.0284±0.00110.0449±0.00160.0070±0.00040.0070±0.00050.9558±0.00160.9983±0.0011 SA-BFGS 3.2 (4) (5) (1) (3) (4) (2) 0.0283±0.00060.0429±0.00080.0072±0.00040.0072±0.00040.9571±0.00080.9982±0.0001 EDL 3.3 (3) (3) (4) (4) (3) (3)
3.3 实验结果 表 7~14 的第 1~6 列列出了 10 次实验的平均 结果±标准差 (当前方法性能的排名),末列为前 6 列平均性能排名。首先比较表 7~14 中的平均 值,如果平均值相同,再比较标准差。 对于数据集 Elu 和 Cold,本文提出的方法在 所有评价指标上都比其他 8 种方法表现更好。对 于数据集 Alpha、Cdc 和 Heat,本文提出的方法在 大多数评价指标上排名第一。对于其余 3 个数据 集,本文提出的方法排在第二或者第三。 表 7 Alpha 数据集上的实验结果 Table 7 Experimental results on the Alpha dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.023 1±0.000 2 (1) 0.0378±0.000 5 (1) 0.0055±0.000 3 (1) 0.0055±0.0002 (1) 0.962 2±0.0005 (1) 0.9986±.000 2 (2) 1.2 LDLLC 0.023 2±0.000 4 (2) 0.0379±0.000 6 (2) 0.0056±0.000 3 (2) 0.0055±0.0003 (2) 0.962 1±0.0006 (2) 0.9986±.000 1 (1) 1.8 PT-Bayes 0.229 8±0.012 4 (9) 0.3485±0.015 4 (9) 0.3879±0.027 7 (9) 0.5607±0.0710 (9) 0.651 5±0.0154 (9) 0.8777±0.010 0 (9) 9.0 PT-SVM 0.027 6±0.000 6 (6) 0.0445±0.000 9 (6) 0.0071±0.000 3 (6) 0.0071±0.0003 (6) 0.956 5±0.0009 (6) 0.9981±0.000 1 (6) 6.0 AA-kNN 0.027 9±0.000 6 (7) 0.0449±0.001 2 (7) 0.0073±0.000 3 (7) 0.0074±0.0004 (8) 0.956 1±0.0012 (7) 0.9980±0.000 1 (7) 7.2 AA-BP 0.087 1±0.007 0 (8) 0.1475±0.013 1 (8) 0.1399±0.050 1 (8) 0.0073±0.0058 (7) 0.853 8±0.0117 (8) 0.9839±0.001 7 (8) 7.8 SA-IIS 0.026 9±0.000 4 (5) 0.0429±0.001 2 (4) 0.0069±0.000 4 (5) 0.0069±0.0004 (5) 0.957 1±0.0012 (4) 0.9983±0.001 1 (5) 4.7 SA-BFGS 0.025 1±0.000 4 (3) 0.0408±0.001 1 (3) 0.0063±0.000 8 (3) 0.0063±0.0004 (3) 0.957 4±0.0009 (3) 0.9985±0.001 1 (3) 3.0 EDL 0.026 0±0.001 1 (4) 0.0429±0.002 2 (5) 0.0067±0.000 6 (4) 0.0068±0.0006 (4) 0.957 0±0.0022 (5) 0.9983±0.000 2 (4) 4.3 表 8 Cdc 数据集上的实验结果 Table 8 Experimental results on the Cdc dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0280±0.0003 (1) 0.0428±0.000 7 (2) 0.007 1±0.000 5 (2) 0.006 9±0.0001 (2) 0.958 7±0.0004 (1) 0.9984±0.0002 (1) 1.5 LDLLC 0.0280±0.0005 (2) 0.0427±0.000 9 (1) 0.007 1±0.000 7 (3) 0.006 7±0.0005 (1) 0.957 3±0.0009 (2) 0.9982±0.0003 (4) 2.2 PT-Bayes 0.2399±0.0103 (9) 0.3455±0.011 1 (9) 3853±0.0210 (9) 0.537 4±0.0503 (9) 0.654 5±0.0111 (9) 0.8778±0.0075 (9) 9.0 PT-SVM 0.0298±0.0007 (5) 0.0458±0.001 2 (6) 0.007 7±0.000 4 (6) 0.007 6±0.0004 (6) 0.955 4±0.0012 (6) 0.9980±0.0001 (6) 5.8 AA-kNN 0.0301±0.0009 (7) 0.0462±0.001 3 (7) 0.008 0±0.000 4 (7) 0.007 9±0.0004 (7) 0.953 8±0.0013 (7) 0.9980±0.0001 (6) 6.8 AA-BP 0.0769±0.0081 (8) 0.1192±0.010 9 (8) 0.084 2±0.028 1 (8) 0.051 1±0.0121 (8) 0.882 9±0.0134 (8) 0.9879±0.0051 (8) 8.0 SA-IIS 0.0290±0.0010 (6) 0.0445±0.001 5 (4) 0.007 3±0.000 5 (5) 0.007 2±0.0005 (5) 0.955 6±0.0015 (5) 0.9982±0.0012 (5) 5.0 SA-BFGS 0.0284±0.0011 (4) 0.0449±0.001 6 (5) 0.007 0±0.000 4 (1) 0.007 0±0.0005 (3) 0.955 8±0.0016 (4) 0.9983±0.0011 (2) 3.2 EDL 0.0283±0.0006 (3) 0.0429±0.000 8 (3) 0.007 2±0.000 4 (4) 0.007 2±0.0004 (4) 0.957 1±0.0008 (3) 0.9982±0.0001 (3) 3.3 第 3 期 黄雨婷,等:三角距离相关性的标签分布学习 ·453·
·454· 智能系统学报 第16卷 表9Elu数据集上的实验结果 Table 9 Experimental results on the Elu dataset 算法 Euclideanl Sorensenl Squard KLL Intersectionf Fidelity 平均值 0.0279±0.00030.0415±0.00050.0063±0.00050.0062±0.00040.9585±0.0005 0.9984±0.0003 T-LDL 1.0 (1) (1) (1) (1) (1) (1) 0.027940.00050.0415±0.00070.0063±0.00080.006240.00060.9585±0.00070.9984±0.0004 LDLLC 2.0 (2) (2) (2) (2) (2) (2) 0.2588±0.02030.3558±0.01980.4081±0.04080.6062±0.10300.6442±0.01980.8689±0.0156 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0293±0.00080.0438±0.00120.0068±0.00050.0068±0.00050.9562±0.00120.9983±0.0002 PT-SVM 4.0 (4) (4) (4) (4) (4) (4) 0.0297±0.00100.0443±0.00140.00710.00060.0071±0.00060.9557±0.00140.99820.0002 AA-kNN 5.3 (5) (5) (6 (6) (5) (5) 0.0733±0.00370.11000.00480.0731±0.00260.0481±0.00610.8891±0.00640.9890±0.0025 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0307±0.00090.0472±0.00140.0071±0.00040.0071±0.00040.9528±0.00150.9982±0.0035 SA-IIS 5.8 (6) (6) (5 (5) (7 (6) 0.0308±0.00090.0475±0.00120.0075±0.00040.0073±0.00030.9552±0.00170.9979±0.0009 SA-BFGS 6.8 (7) (T) (7 (7 (6) (7) 0.028940.00050.0431±0.00080.0067±0.00030.0067±0.00030.9569±0.00070.9983±0.0001 EDL 3.0 (3) (3) (3) (3) (3) (3) 表10Diau数据集上的实验结果 Table 10 Experimental results on the Diau dataset 算法 Euclideanl Sorensenl Squard KLI Intersection Fidelity 平均值 0.05430.00080.0597±0.00090.0132±0.00110.0130±0.00080.9403±0.00090.9967±0.0005 T-LDL 2.5 (3) (3) (2) (2) (3) R 0.054540.00090.0599±0.00100.0133±0.00110.013240.00080.9401±0.0010 0.9966±0.0005 LDLLC 3.5 (4) (4) (3) (3) (4) (3) 0.40274±0.01830.4177±0.01700.5280±0.02810.851240.0772 0.5823±0.0170 0.8230±0.0107 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0628±0.00370.0686±0.00410.0169±0.00180.0167±0.00170.9314±0.00410.9957±0.0004 PT-SVM 7.2 (8) (7) (7) (7) (7) (7) 0.0567±0.00190.0622±0.00220.0145±0.00110.0145±0.00100.9378±0.00220.9963±0.0003 AA-kNN 5.0 (5) (5) (5 (5) (5) (5) 0.0802±0.00510.0863±0.00590.0276±0.00130.0291±0.00690.9142±0.00670.9929±0.0031 AA-BP 8.0 (7) (8) (8) (8) (8) (8) 0.053940.00310.0593±0.00320.0144±0.00140.0141±0.00130.9407±0.00030.9964±0.0036 SA-IIS 3.0 (2) (2) (4) (4) (2) (4) 0.0444±0.00220.0476±0.0023 0.0089±0.00080.0083±0.00090.9513±0.0027 0.9978±0.0031 SA-BFGS 1.0 (1) (1) (1) (1) (1) (1) 0.0597±0.00100.0653±0.00100.0158±0.00050.0155±0.00050.9347±0.00100.9960±0.0002 EDL 6.0 (6) (6) (6 (6) (6) (6 表11Heat数据集上的实验结果 Table 11 Experimental results on the Heat dataset 算法 Euclidean! Sorensenl Squard x KLI Intersectiont Fidelity平均值 0.0591±0.00090.0597±0.00080.0127±0.00110.0125±0.0007 0.9403±0.00080.9968±0.0007 T-LDL 1.2 (2) (1) () () () (1)
表 9 Elu 数据集上的实验结果 Table 9 Experimental results on the Elu dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0279±0.0003 (1) 0.0415±0.000 5 (1) 0.006 3±0.000 5 (1) 0.006 2±0.0004 (1) 0.958 5±0.0005 (1) 0.9984±0.0003 (1) 1.0 LDLLC 0.0279±0.0005 (2) 0.0415±0.000 7 (2) 0.006 3±0.000 8 (2) 0.006 2±0.0006 (2) 0.958 5±0.0007 (2) 0.9984±0.0004 (2) 2.0 PT-Bayes 0.2588±0.0203 (9) 0.3558±0.019 8 (9) 0.408 1±0.040 8 (9) 0.606 2±0.1030 (9) 0.644 2±0.0198 (9) 0.8689±0.0156 (9) 9.0 PT-SVM 0.0293±0.0008 (4) 0.0438±0.001 2 (4) 0.006 8±0.000 5 (4) 0.006 8±0.0005 (4) 0.956 2±0.0012 (4) 0.9983±0.0002 (4) 4.0 AA-kNN 0.0297±0.0010 (5) 0.0443±0.001 4 (5) 0.007 1±0.000 6 (6) 0.007 1±0.0006 (6) 0.955 7±0.0014 (5) 0.9982±0.0002 (5) 5.3 AA-BP 0.0733±0.0037 (8) 0.1100±0.004 8 (8) 0.073 1±0.002 6 (8) 0.048 1±0.0061 (8) 0.889 1±0.0064 (8) 0.9890±0.0025 (8) 8.0 SA-IIS 0.0307±0.0009 (6) 0.0472±0.001 4 (6) 0.007 1±0.000 4 (5) 0.007 1±0.0004 (5) 0.952 8±0.0015 (7) 0.9982±0.0035 (6) 5.8 SA-BFGS 0.0308±0.0009 (7) 0.0475±0.001 2 (7) 0.007 5±0.000 4 (7) 0.007 3±0.0003 (7) 0.955 2±0.0017 (6) 0.9979±0.0009 (7) 6.8 EDL 0.0289±0.0005 (3) 0.0431±0.000 8 (3) 0.006 7±0.000 3 (3) 0.006 7±0.0003 (3) 0.956 9±0.0007 (3) 0.9983±0.0001 (3) 3.0 表 10 Diau 数据集上的实验结果 Table 10 Experimental results on the Diau dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0543±0.0008 (3) 0.0597±0.000 9 (3) 0.013 2±0.001 1 (2) 0.013 0±0.0008 (2) 0.940 3±0.0009 (3) 0.9967±0.0005 (2) 2.5 LDLLC 0.0545±0.0009 (4) 0.0599±0.001 0 (4) 0.013 3±0.001 1 (3) 0.013 2±0.0008 (3) 0.940 1±0.0010 (4) 0.9966±0.0005 (3) 3.5 PT-Bayes 0.4027±0.0183 (9) 0.4177±0.017 0 (9) 0.528 0±0.028 1 (9) 0.851 2±0.0772 (9) 0.582 3±0.0170 (9) 0.8230±0.0107 (9) 9.0 PT-SVM 0.0628±0.0037 (8) 0.0686±0.004 1 (7) 0.016 9±0.001 8 (7) 0.016 7±0.0017 (7) 0.931 4±0.0041 (7) 0.9957±0.0004 (7) 7.2 AA-kNN 0.0567±0.0019 (5) 0.0622±0.002 2 (5) 0.014 5±0.001 1 (5) 0.014 5±0.0010 (5) 0.937 8±0.0022 (5) 0.9963±0.0003 (5) 5.0 AA-BP 0.0802±0.0051 (7) 0.0863±0.005 9 (8) 0.027 6±0.001 3 (8) 0.029 1±0.0069 (8) 0.914 2±0.0067 (8) 0.9929±0.0031 (8) 8.0 SA-IIS 0.0539±0.0031 (2) 0.0593±0.003 2 (2) 0.014 4±0.001 4 (4) 0.014 1±0.0013 (4) 0.940 7±0.0003 (2) 0.9964±0.0036 (4) 3.0 SA-BFGS 0.0444±0.0022 (1) 0.0476±0.002 3 (1) 0.008 9±0.000 8 (1) 0.008 3±0.0009 (1) 0.951 3±0.0027 (1) 0.9978±0.0031 (1) 1.0 EDL 0.0597±0.0010 (6) 0.0653±0.001 0 (6) 0.015 8±0.000 5 (6) 0.015 5±0.0005 (6) 0.934 7±0.0010 (6) 0.9960±0.0002 (6) 6.0 表 11 Heat 数据集上的实验结果 Table 11 Experimental results on the Heat dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.059 1±0.000 9 (2) 0.059 7±0.0008 (1) 0.0127±0.001 1 (1) 0.0125±0.000 7 (1) 0.940 3±0.0008 (1) 0.9968±0.0007 (1) 1.2 ·454· 智 能 系 统 学 报 第 16 卷
第3期 黄雨婷,等:三角距离相关性的标签分布学习 ·455· 续表11 算法 Euclidean! Sorensenl Squard KLI Intersectiont Fidelityt 平均值 0.0591±0.00080.0597±0.00080.0127±0.00110.0125±0.0007 0.9403±0.0008 0.9968±0.0008 LDLLC 1.2 (1) (1) (1) (1) (1) (2) 0.4500±0.02310.4354±0.01930.5450±0.03610.8678±0.11980.5646±0.0193 0.8180±0.0131 PT-Bayes 9.0 (9) (9) (9) (9 (9) (9) 0.0625±0.00230.0627±0.00220.0141±0.00100.0141±0.00100.9373±0.0022 0.9964±0.0003 PT-SVM 33 (4) (3) (3) (3) (4) (3) 0.0624±0.00200.0632±0.00180.01410.00100.0141±0.00100.9368±0.00180.9964±0.0003 AA-kNN 32 (3) (4) (3) (3) (3) (3) 0.0793±0.00680.0822±0.00710.0235±0.00470.0246±0.00530.9198±0.00610.9937±0.0028 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0703±0.00360.0692±0.00330.0182±0.00160.018240.00160.9309±0.00330.99540.0042 SA-IIS 6.2 (6) (6) (6) (6) (6) (7) 0.0728±0.00310.0791±0.00290.0188±0.00160.0186±0.00150.9304±0.00340.99610.0048 SA-BFGS 6.8 (① (7) (7) (7) (7) (6) 0.0629±0.00160.0633±0.00170.0143±0.00080.0143±0.00080.9366±0.00170.9963±0.0003 EDL 5.0 ( (5) (5) (5) (5) 表12Spo数据集上的实验结果 Table 12 Experimental results on the Spo dataset 算法 Euclidean! Sorensen↓ Squardx KLI Intersection Fidelity 平均值 0.0817±0.00140.0842±0.00140.0247±0.00160.02430.00160.9158±0.00140.9937±0.0006 T-LDL 2.0 (1) (2) (2) (2) (2) (3) 0.0819±0.0013 0.0844±0.00130.0248±0.00140.0245±0.00130.9156±0.0013 0.9937±0.0005 LDLLC 2.7 (2) (3) (3) (3) (3) (2) 0.4038±0.01620.4030±0.01340.49720.02460.717240.08400.5971±0.0134 0.8342±0.0095 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.087840.00190.0893±0.00220.0280±0.00150.028440.00150.9107±0.0022 0.9929±0.0004 PT-SVM 6.2 () (6) (6) (6) (6) (6) 0.0879±0.00300.0899±0.00240.0286±0.00200.0286±0.00020.9096±0.00340.9927±0.0005 AA-kNN 6.8 (6) (7) (7) (7 (7 (7) 0.0979±0.00410.1012±0.00380.0344±0.00380.035940.00390.8982±0.00370.9906±0.0010 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0863±0.00410.0861±0.00360.0251±0.00360.0252±0.00220.9139±0.00360.9937±0.0005 SA-IIS 4.2 (5) (4) (4) (4) (4) (4) 0.081940.00450.0833±0.00380.0229±0.00190.0226±0.0021 0.9168±0.00390.9951±0.0007 SA-BFGS 1.3 (3) (1) (1) (1) (1) (1) 0.0843±0.00290.0872±0.00290.0268±0.00150.026940.00160.9128±0.00280.9932±0.0004 EDL 4.8 (4) (5) (S) (5) (5) (S) 表l3Cold数据集上的实验结果 Table 13 Experimental results on the Cold dataset 算法 Euclideanl Sorensen Squard KLI Intersectiont Fidelity 平均值 0.0681±0.00150.0591±0.00140.0122±0.00230.0120±0.00130.9409±0.00140.996940.0013 T-LDI 1.0 (1) (1) () (1) (1) (1) 0.068340.00190.059240.00170.0122±0.00250.0121±0.00170.9408±0.00170.9969±0.0012 LDLLC 2.2 (2) (2) (2) (2) (2) (3) 0.5252±0.02240.447940.01890.5873±0.03520.9089±0.10420.5521±0.01890.7991±0.0134 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9)
续表 11 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 LDLLC 0.0591±0.0008 (1) 0.0597±0.000 8 (1) 0.012 7±0.001 1 (1) 0.012 5±0.0007 (1) 0.940 3±0.0008 (1) 0.9968±0.0008 (2) 1.2 PT-Bayes 0.4500±0.0231 (9) 0.4354±0.019 3 (9) 0.545 0±0.036 1 (9) 0.867 8±0.1198 (9) 0.564 6±0.0193 (9) 0.8180±0.0131 (9) 9.0 PT-SVM 0.0625±0.0023 (4) 0.0627±0.002 2 (3) 0.014 1±0.001 0 (3) 0.014 1±0.0010 (3) 0.937 3±0.0022 (4) 0.9964±0.0003 (3) 3.3 AA-kNN 0.0624±0.0020 (3) 0.0632±0.001 8 (4) 0.014 1±0.001 0 (3) 0.014 1±0.0010 (3) 0.936 8±0.0018 (3) 0.9964±0.0003 (3) 3.2 AA-BP 0.0793±0.0068 (8) 0.0822±0.007 1 (8) 0.023 5±0.004 7 (8) 0.024 6±0.0053 (8) 0.919 8±0.0061 (8) 0.9937±0.0028 (8) 8.0 SA-IIS 0.0703±0.0036 (6) 0.0692±0.003 3 (6) 0.018 2±0.001 6 (6) 0.018 2±0.0016 (6) 0.930 9±0.0033 (6) 0.9954±0.0042 (7) 6.2 SA-BFGS 0.0728±0.0031 (7) 0.0791±0.002 9 (7) 0.018 8±0.001 6 (7) 0.018 6±0.0015 (7) 0.930 4±0.0034 (7) 0.9961±0.0048 (6) 6.8 EDL 0.0629±0.0016 (5) 0.0633±0.001 7 (5) 0.014 3±0.000 8 (5) 0.014 3±0.0008 (5) 0.936 6±0.0017 (5) 0.9963±0.0003 (5) 5.0 表 12 Spo 数据集上的实验结果 Table 12 Experimental results on the Spo dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0817±0.0014 (1) 0.0842±0.001 4 (2) 0.024 7±0.001 6 (2) 0.024 3±0.0016 (2) 0.915 8±0.0014 (2) 0.9937±0.0006 (3) 2.0 LDLLC 0.0819±0.0013 (2) 0.0844±0.001 3 (3) 0.024 8±0.001 4 (3) 0.024 5±0.0013 (3) 0.915 6±0.0013 (3) 0.9937±0.0005 (2) 2.7 PT-Bayes 0.4038±0.0162 (9) 0.4030±0.013 4 (9) 0.497 2±0.024 6 (9) 0.717 2±0.0840 (9) 0.597 1±0.0134 (9) 0.8342±0.0095 (9) 9.0 PT-SVM 0.0878±0.0019 (7) 0.0893±0.002 2 (6) 0.028 0±0.001 5 (6) 0.028 4±0.0015 (6) 0.910 7±0.0022 (6) 0.9929±0.0004 (6) 6.2 AA-kNN 0.0879±0.0030 (6) 0.0899±0.002 4 (7) 0.028 6±0.002 0 (7) 0.028 6±0.0002 (7) 0.909 6±0.0034 (7) 0.9927±0.0005 (7) 6.8 AA-BP 0.0979±0.0041 (8) 0.1012±0.003 8 (8) 0.034 4±0.003 8 (8) 0.035 9±0.0039 (8) 0.898 2±0.0037 (8) 0.9906±0.0010 (8) 8.0 SA-IIS 0.0863±0.0041 (5) 0.0861±0.003 6 (4) 0.025 1±0.003 6 (4) 0.025 2±0.0022 (4) 0.913 9±0.0036 (4) 0.9937±0.0005 (4) 4.2 SA-BFGS 0.0819±0.0045 (3) 0.0833±0.003 8 (1) 0.022 9±0.001 9 (1) 0.022 6±0.0021 (1) 0.916 8±0.0039 (1) 0.9951±0.0007 (1) 1.3 EDL 0.0843±0.0029 (4) 0.0872±0.002 9 (5) 0.026 8±0.001 5 (5) 0.026 9±0.0016 (5) 0.912 8±0.0028 (5) 0.9932±0.0004 (5) 4.8 表 13 Cold 数据集上的实验结果 Table 13 Experimental results on the Cold dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0681±0.0015 (1) 0.0591±0.0014 (1) 0.0122±0.0023 (1) 0.0120±0.0013 (1) 0.9409±0.0014 (1) 0.9969±0.0013 (1) 1.0 LDLLC 0.0683±0.0019 (2) 0.0592±0.0017 (2) 0.0122±0.0025 (2) 0.0121±0.0017 (2) 0.9408±0.0017 (2) 0.9969±0.0012 (3) 2.2 PT-Bayes 0.5252±0.0224 (9) 0.4479±0.0189 (9) 0.5873±0.0352 (9) 0.9089±0.1042 (9) 0.5521±0.0189 (9) 0.7991±0.0134 (9) 9.0 第 3 期 黄雨婷,等:三角距离相关性的标签分布学习 ·455·
·456· 智能系统学报 第16卷 续表13 算法 Euclidean! Sorensen↓ Squard x KLI Intersection Fidelity 平均值 0.0753±0.00800.0654±0.00690.0147±0.00330.0146±0.00330.9346±0.00690.9963±0.0008 PT-SVM 5.3 (5) (6) (5) (5) (6) (5) 0.0724±0.0027 0.0630±0.00240.0136±0.00110.0136±0.00110.9370±0.0024 0.9966±0.0003 AA-kNN 3.2 (3) (3) (3) (3) (3) (4) 0.0838±0.00450.0710±0.00270.0178±0.00110.0163±0.0030 0.9328±0.00290.9952±0.0017 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0767±0.00040.0653±0.00340.0157±0.00150.0155±0.00150.9347±0.0034 0.9960±0.0039 SA-IIS 6.2 (6 (5) (7) (7) (5) (7 0.0745±0.00040.06410.00350.0139±0.00130.0143±0.00150.9348±0.00350.9968±0.0036 SA-BFGS 3.0 (4) (3) (3) (3) (3) (2) 0.0771±0.00180.0668±0.00160.01540.00090.0153±0.00090.9332±0.00160.9961±0.0003 EDL 6.5 (7) (7) (6) (6 (7) (6) 表14Dtt数据集上的实验结果 Table 14 Experimental results on the Dtt dataset 算法 Euclideanl Sorensenl Squardx KLI Intersection Fidelity 平均值 0.0477±0.00150.0415±0.00130.0062±0.00270.0060±0.00180.9585±0.00130.9984±0.0012 T-LDL 1.8 (1) (2) (2) (2) (1) (3) 0.0480±0.00200.0417±0.00170.0062±0.00280.0061±0.00210.9583±0.00170.9984±0.0011 LDLLC 2.7 (2) (3) (3) (3) (3) (2) 0.487940.02420.4156±0.01920.5416±0.04380.906940.15800.5844±0.01920.8113±0.0186 PT-Bayes 9.0 (9) (9) (9) (9) (9) (9) 0.0516±0.00290.0447±0.00240.0071±0.00090.00710.00090.9553±0.00240.9982±0.0003 PT-SVM 6.3 (6) (6) (7) (7) (6) (6 0.0512±0.00190.0443±0.00170.0071±0.00070.0070±0.00070.9557±0.00170.9982±0.0002 AA-kNN 5.3 (5) () (6 (6 (5) (5) 0.0622±0.00320.0531±0.00290.0097±0.00120.012240.00370.9465±0.00240.9969±0.0011 AA-BP 8.0 (8) (8) (8) (8) (8) (8) 0.0535±0.00230.0480±0.00230.0068±0.00050.0068±0.00050.9520±0.00230.9983±0.0013 SA-IIS 5.5 (7) (7) (4) (4) (7) (4) 0.0495±.0019 0.0409±0.00170.0058±0.00050.0054±0.00040.9584±0.0023 0.9989±0.0010 SA-BFGS 1.5 (3) (1) (1) (1) (2) (1) 0.0508±0.00220.0440±0.00180.0069±0.00070.0068±0.00080.9560±0.00180.9982±0.0003 EDL 4.7 (4) (4) (5) (⑤) (4) (6) 3.4讨论 条件。实验证明在本文场景中,三角距离更加 各种算法通常在不同的数据集上具有不同的 合适。 排名,表明每种算法都有其合适的应用场景,如 EDL算法更适用于文本情绪分类场景。不同评 4 结束语 价指标下同一算法的不同排名,反映了6项评价 为了进一步提高标签分布学习算法的预测性 指标的多样性。在比较不同方法对新数据集的预 能,本文提出了三角距离相关性的标签分布学习 测效果时,应综合考虑多个评价指标。 算法。新的三角距离可以充分考虑向量本身和向 与同样考虑标签相关性的LDLLC算法相比, 量之差,能更好地描述标签之间的相关性。实验 T-LDL算法在绝大多数数据集上的表现均优于 结果表明,本文的方法比大多数现有的方法表现 LDLLC算法。LDLLC算法基于皮尔逊相关系数 更好。 表征标签相关性,而T-LDL算法基于本文设计的 未来的工作将尝试从以下几个方面提高标签 三角距离。皮尔逊相关系数要求输入的2个向量 分布学习方法的性能:1)采用属性约简以降低算 满足线性相关,而本文设计的三角距离无该约束 法的时间复杂度:2)使用其他度量取代作为目标
3.4 讨论 各种算法通常在不同的数据集上具有不同的 排名,表明每种算法都有其合适的应用场景,如 EDL 算法更适用于文本情绪分类场景。不同评 价指标下同一算法的不同排名,反映了 6 项评价 指标的多样性。在比较不同方法对新数据集的预 测效果时,应综合考虑多个评价指标。 与同样考虑标签相关性的 LDLLC 算法相比, T-LDL 算法在绝大多数数据集上的表现均优于 LDLLC 算法。LDLLC 算法基于皮尔逊相关系数 表征标签相关性,而 T-LDL 算法基于本文设计的 三角距离。皮尔逊相关系数要求输入的 2 个向量 满足线性相关,而本文设计的三角距离无该约束 条件。实验证明在本文场景中,三角距离更加 合适。 4 结束语 为了进一步提高标签分布学习算法的预测性 能,本文提出了三角距离相关性的标签分布学习 算法。新的三角距离可以充分考虑向量本身和向 量之差,能更好地描述标签之间的相关性。实验 结果表明,本文的方法比大多数现有的方法表现 更好。 未来的工作将尝试从以下几个方面提高标签 分布学习方法的性能:1) 采用属性约简以降低算 法的时间复杂度;2) 使用其他度量取代作为目标 续表 13 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 PT-SVM 0.0753±0.0080 (5) 0.0654±0.006 9 (6) 0.014 7±0.003 3 (5) 0.014 6±0.0033 (5) 0.934 6±0.0069 (6) 0.9963±0.0008 (5) 5.3 AA-kNN 0.0724±0.0027 (3) 0.0630±0.002 4 (3) 0.013 6±0.001 1 (3) 0.013 6±0.0011 (3) 0.937 0±0.0024 (3) 0.9966±0.0003 (4) 3.2 AA-BP 0.0838±0.0045 (8) 0.0710±0.002 7 (8) 0.017 8±0.001 1 (8) 0.016 3±0.0030 (8) 0.932 8±0.0029 (8) 0.9952±0.0017 (8) 8.0 SA-IIS 0.0767±0.0004 (6) 0.0653±0.003 4 (5) 0.015 7±0.001 5 (7) 0.015 5±0.0015 (7) 0.934 7±0.0034 (5) 0.9960±0.0039 (7) 6.2 SA-BFGS 0.0745±0.0004 (4) 0.0641±0.003 5 (3) 0.013 9±0.001 3 (3) 0.014 3±0.0015 (3) 0.934 8±0.0035 (3) 0.9968±0.0036 (2) 3.0 EDL 0.0771±0.0018 (7) 0.0668±0.001 6 (7) 0.015 4±0.000 9 (6) 0.015 3±0.0009 (6) 0.933 2±0.0016 (7) 0.9961±0.0003 (6) 6.5 表 14 Dtt 数据集上的实验结果 Table 14 Experimental results on the Dtt dataset 算法 Euclidean↓ Sørensen↓ Squard χ2 ↓ KL↓ Intersection↑ Fidelity↑ 平均值 T-LDL 0.0477±0.0015 (1) 0.0415±0.001 3 (2) 0.006 2±0.002 7 (2) 0.006 0±0.0018 (2) 0.958 5±0.0013 (1) 0.9984±0.0012 (3) 1.8 LDLLC 0.0480±0.0020 (2) 0.0417±0.001 7 (3) 0.006 2±0.002 8 (3) 0.006 1±0.0021 (3) 0.958 3±0.0017 (3) 0.9984±0.0011 (2) 2.7 PT-Bayes 0.4879±0.0242 (9) 0.4156±0.019 2 (9) 0.541 6±0.043 8 (9) 0.906 9±0.1580 (9) 0.584 4±0.0192 (9) 0.8113±0.0186 (9) 9.0 PT-SVM 0.0516±0.0029 (6) 0.0447±0.002 4 (6) 0.007 1±0.000 9 (7) 0.007 1±0.0009 (7) 0.955 3±0.0024 (6) 0.9982±0.0003 (6) 6.3 AA-kNN 0.0512±0.0019 (5) 0.0443±0.001 7 (5) 0.007 1±0.000 7 (6) 0.007 0±0.0007 (6) 0.955 7±0.0017 (5) 0.9982±0.0002 (5) 5.3 AA-BP 0.0622±0.0032 (8) 0.0531±0.002 9 (8) 0.009 7±0.001 2 (8) 0.012 2±0.0037 (8) 0.946 5±0.0024 (8) 0.9969±0.0011 (8) 8.0 SA-IIS 0.0535±0.0023 (7) 0.0480±0.002 3 (7) 0.006 8±0.000 5 (4) 0.006 8±0.0005 (4) 0.952 0±0.0023 (7) 0.9983±0.0013 (4) 5.5 SA-BFGS 0.0495±.0019 (3) 0.0409±0.001 7 (1) 0.005 8±0.000 5 (1) 0.005 4±0.0004 (1) 0.958 4±0.0023 (2) 0.9989±0.0010 (1) 1.5 EDL 0.0508±0.0022 (4) 0.0440±0.001 8 (4) 0.006 9±0.000 7 (5) 0.006 8±0.0008 (5) 0.956 0±0.0018 (4) 0.9982±0.0003 (6) 4.7 ·456· 智 能 系 统 学 报 第 16 卷
第3期 黄雨婷,等:三角距离相关性的标签分布学习 ·457· 函数基础的KL散度;3)利用新的距离映射函数 correlations and missing labels[Cl//Proceedings of the 表示标签的相关性。 28th AAAI Conference on Artificial Intelligence.Quebec City,Canada.2014:1680-1686 参考文献: [11]HUANG Shengjun,ZHOU Zhihua.Multi-label learning by exploiting label correlations locally[C]//Proceedings of [1]GENG Xin.Label distribution learning[J].IEEE transac- the 26th AAAI Conference on Artificial Intelligence tions on knowledge and data engineering,2016,28(7): Toronto,Canada,2012:949-955 17341748. [12]GENG Xin,WANG Qin,XIA Yu.Facial age estimation [2]JIA Xiuyi,ZHENG Xiang,LI Weiwei,et al.Facial emo- by adaptive label distribution learning[C]//Proceedings of tion distribution learning by exploiting low-rank label cor- the 22nd International Conference on Pattern Recognition. relations locally[C]//Proceedings of 2019 IEEE/CVF Con- Stockholm,Sweden,2014:4465-4470 ference on Computer Vision and Pattern Recognition. [13]ZHANG Zhaoxiang,WANG Mo,GENG Xin.Crowd Long Beach,USA,2019:9841-9850. counting in public video surveillance by label distribution [3]YANG Xu,GAO Binbin,XING Chao,et al.Deep label learning[J].Neurocomputing,2015,166:151-163. distribution learning for apparent age estimation[C]//Pro- [14]GENG Xin,YIN Chao,ZHOU Zhihua.Facial age estima- ceedings of 2015 IEEE International Conference on Com- tion by learning from label distributions[J].IEEE transac- puter Vision Workshops.Santiago,Chile,2015:102-108. tions on pattern analysis and machine intelligence,2013, [4]ZHANG Hengru,HUANG Yuting,XU Yuanyuan,et al. 35(10):2401-2412 COS-LDL:label distribution learning by cosine-based dis- [15]GENG Xin,LING Miaogen.Soft video parsing by tance-mapping correlation[J].IEEE access,2020,8: label distribution learning[C].Proceedings of the 31th 63961-63970. AAAI Conference on Artificial Intelligence.San Fran- [5]邵东恒,杨文元,赵红.应用k-means算法实现标记分布 cisco,USA,2017:1331-1337. 学习[).智能系统学报,2017,12(3):325-332 [16]JIA Xiuyi,LI Weiwei,LIU Junyu,et al.Label distribu- SHAO Dongheng,YANG Wenyuan,ZHAO Hong.Label tion learning by exploiting label correlations[C]//Proceed- distribution learning based on k-means algorithm[J].CAAI ings of the 32nd AAAI Conference on Artificial Intelli- transactions on intelligent systems,2017,12(3):325-332. gence.New Orleans,USA,2018:3310-3317. [6]刘玉杰,唐顺静,高永标,等.基于标签分布学习的视频 [17]ZHENG Xiang,JIA Xiuyi,LI Weiwei.Label distribution 摘要算法「J刀.计算机轴助设计与图形学学报,2019. learning by exploiting sample correlations locally[Cl// 31(1):104110 Proceedings of the 32nd AAAI Conference on Artificial LIU Yujie.TANG Shunjing.,GAO Yongbiao,et al.Label Intelligence.New Orleans,USA,2018:4556-4563. distribution learning for video summarization[J].Journal of [18]KULLBACK S,LEIBLER R A.On information and suf- computer-aided design&computer graphics,2019,31(1): ficiency[J].The annals of mathematical statistics,1951, 104-110. 22(179-86. [7]王一宾,田文泉,程玉胜.基于标记分布学习的异态集成 [19]DANIELSSON P E.Euclidean distance mapping[J]. 学习算法[.模式识别与人工智能,2019,32(10): Computer graphics and image processing,1980,14(3): 945-954 227-248. WANG Yibin,TIAN Wenquan,CHENG Yusheng.Het- [20]SORENSEN T.A method of establishing groups of equal erogeneous ensemble learning algorithm based on label amplitude in plant sociology based on similarity of spe- distribution learning[J].Pattern recognition and artificial cies content,and its application to analyses of the vegeta- intelligence,.2019,32(10):945-954. tion on Danish commons[J].Kongelige danske [8]耿新,徐宁.标记分布学习与标记增强).中国科学:信 videnskabernes selskab biologiske skrifter,1948,5(4): 息科学,2018,48(5:521-530. 1-34. GENG Xin,XU Ning.Label distribution learning and la- [21]GAVIN D G.OSWALD WW.WAHL E R.et al.A stat- bel enhancement[J].Scientia sinica informationis,2018, istical approach to evaluating distance metrics and analog 48(5):521-530. assignments for pollen records[J].Quaternary research, [9]ZHANG Mingling,ZHANG Kun.Multi-label learning by 2003,60(3):356-367. exploiting label dependency[C]//Proceedings of the 16th [22]DUDA R O.HART P E.STORK D G.Pattern classifica- ACM SIGKDD International Conference on Knowledge tion[M].2nd ed.New York:Wiley,2000. Discovery and Data Mining.Washington,USA,2010: [23]DEZA E,DEZA MM.Dictionary of distances[M].Ams- 999-1007. terdam:Elsevier,2006. [10]BI Wei,KWOK JT.Multilabel classification with label [24]JEGOU H.DOUZE M,SCHMID C.Hamming embed-
函数基础的 KL 散度;3) 利用新的距离映射函数 表示标签的相关性。 参考文献: GENG Xin. Label distribution learning[J]. IEEE transactions on knowledge and data engineering, 2016, 28(7): 1734–1748. [1] JIA Xiuyi, ZHENG Xiang, LI Weiwei, et al. Facial emotion distribution learning by exploiting low-rank label correlations locally[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 9841−9850. [2] YANG Xu, GAO Binbin, XING Chao, et al. Deep label distribution learning for apparent age estimation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision Workshops. Santiago, Chile, 2015: 102−108. [3] ZHANG Hengru, HUANG Yuting, XU Yuanyuan, et al. COS-LDL: label distribution learning by cosine-based distance-mapping correlation[J]. IEEE access, 2020, 8: 63961–63970. [4] 邵东恒, 杨文元, 赵红. 应用 k-means 算法实现标记分布 学习 [J]. 智能系统学报, 2017, 12(3): 325–332. SHAO Dongheng, YANG Wenyuan, ZHAO Hong. Label distribution learning based on k-means algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(3): 325–332. [5] 刘玉杰, 唐顺静, 高永标, 等. 基于标签分布学习的视频 摘要算法 [J]. 计算机辅助设计与图形学学报, 2019, 31(1): 104–110. LIU Yujie, TANG Shunjing, GAO Yongbiao, et al. Label distribution learning for video summarization[J]. Journal of computer-aided design & computer graphics, 2019, 31(1): 104–110. [6] 王一宾, 田文泉, 程玉胜. 基于标记分布学习的异态集成 学习算法 [J]. 模式识别与人工智能, 2019, 32(10): 945–954. WANG Yibin, TIAN Wenquan, CHENG Yusheng. Heterogeneous ensemble learning algorithm based on label distribution learning[J]. Pattern recognition and artificial intelligence, 2019, 32(10): 945–954. [7] 耿新, 徐宁. 标记分布学习与标记增强 [J]. 中国科学: 信 息科学, 2018, 48(5): 521–530. GENG Xin, XU Ning. Label distribution learning and label enhancement[J]. Scientia sinica informationis, 2018, 48(5): 521–530. [8] ZHANG Mingling, ZHANG Kun. Multi-label learning by exploiting label dependency[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, USA, 2010: 999−1007. [9] [10] BI Wei, KWOK J T. Multilabel classification with label correlations and missing labels[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014: 1680−1686. HUANG Shengjun, ZHOU Zhihua. Multi-label learning by exploiting label correlations locally[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence. Toronto, Canada, 2012: 949−955. [11] GENG Xin, WANG Qin, XIA Yu. Facial age estimation by adaptive label distribution learning[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden, 2014: 4465−4470. [12] ZHANG Zhaoxiang, WANG Mo, GENG Xin. Crowd counting in public video surveillance by label distribution learning[J]. Neurocomputing, 2015, 166: 151–163. [13] GENG Xin, YIN Chao, ZHOU Zhihua. Facial age estimation by learning from label distributions[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(10): 2401–2412. [14] GENG Xin, LING Miaogen. Soft video parsing by label distribution learning[C]. Proceedings of the 31th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 1331−1337. [15] JIA Xiuyi, LI Weiwei, LIU Junyu, et al. Label distribution learning by exploiting label correlations[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 3310−3317. [16] ZHENG Xiang, JIA Xiuyi, LI Weiwei. Label distribution learning by exploiting sample correlations locally[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 4556−4563. [17] KULLBACK S, LEIBLER R A. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1): 79–86. [18] DANIELSSON P E. Euclidean distance mapping[J]. Computer graphics and image processing, 1980, 14(3): 227–248. [19] SØRENSEN T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content, and its application to analyses of the vegetation on Danish commons[J]. Kongelige danske videnskabernes selskab biologiske skrifter, 1948, 5(4): 1–34. [20] GAVIN D G, OSWALD W W, WAHL E R, et al. A statistical approach to evaluating distance metrics and analog assignments for pollen records[J]. Quaternary research, 2003, 60(3): 356–367. [21] DUDA R O, HART P E, STORK D G. Pattern classification[M]. 2nd ed. New York: Wiley, 2000. [22] DEZA E, DEZA M M. Dictionary of distances[M]. Amsterdam: Elsevier, 2006. [23] [24] JEGOU H, DOUZE M, SCHMID C. Hamming embed- 第 3 期 黄雨婷,等:三角距离相关性的标签分布学习 ·457·
·458· 智能系统学报 第16卷 ding and weak geometric consistency for large scale im- 作者简介: age search[C]//Proceedings of the 10th European Confer- 黄雨婷,硕士研究生,主要研究方 ence on Computer Vision.Marseille,France,2008: 向为标签分布学习和推荐系统。 304-317. [25]BERGER A L,PIETRA V J D,PIETRA S A D.A max- imum entropy approach to natural language processing[J]. Computational linguistics,199,22(1):39-71. [26]ZHOU Deyu,ZHANG Xuan,ZHOU Yin,et al.Emotion distribution learning from texts[C]//Proceedings of the 徐媛媛.讲师,主要研究方向为信 2016 Conference on Empirical Methods in Natural Lan- 号处理和推荐系统。主持教育部产学 guage Processing.Austin,Texas,2016:638-647. 合作协同育人项目2项。发表学术论 [27]YUAN Yaxiang.A modified BFGS algorithm for uncon- 文2篇。 strained optimization[J].IMA journal of numerical ana- ysis,1991,11(3):325-332. [28]EISEN M B,SPELLMAN P T,BROWN P O,et al. Cluster analysis and display of genome-wide expression 张恒汝,教授,主要研究方向为标 patterns[J].Proceedings of the national academy of sci- 签分布学习、粒计算、推荐系统和数据 ences of the united states of America,1998,95(25): 挖掘。主持四川省科技厅项目1项, 14863-14868. 参与省部级科研及教研项目3项。发 [29]CHA Su H.Comprehensive survey on distance/similarity 表学术论文30余篇。 measures between probability density functions[J].Inter- national journal of mathematical models and methods in applied sciences,2007,1(4):300-307
ding and weak geometric consistency for large scale image search[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France, 2008: 304−317. BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996, 22(1): 39–71. [25] ZHOU Deyu, ZHANG Xuan, ZHOU Yin, et al. Emotion distribution learning from texts[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas, 2016: 638−647. [26] YUAN Yaxiang. A modified BFGS algorithm for unconstrained optimization[J]. IMA journal of numerical analysis, 1991, 11(3): 325–332. [27] EISEN M B, SPELLMAN P T, BROWN P O, et al. Cluster analysis and display of genome-wide expression patterns[J]. Proceedings of the national academy of sciences of the united states of America, 1998, 95(25): 14863–14868. [28] CHA Su H. Comprehensive survey on distance/similarity measures between probability density functions[J]. International journal of mathematical models and methods in applied sciences, 2007, 1(4): 300–307. [29] 作者简介: 黄雨婷,硕士研究生,主要研究方 向为标签分布学习和推荐系统。 徐媛媛,讲师,主要研究方向为信 号处理和推荐系统。主持教育部产学 合作协同育人项目 2 项。发表学术论 文 2 篇。 张恒汝,教授,主要研究方向为标 签分布学习、粒计算、推荐系统和数据 挖掘。主持四川省科技厅项目 1 项, 参与省部级科研及教研项目 3 项。发 表学术论文 30 余篇。 ·458· 智 能 系 统 学 报 第 16 卷