签分布矩阵 P = {p1 , p2 , …, pi}，其中 pi = [

正在加载图片...

第3期黄雨婷，等：三角距离相关性的标签分布学习 ·451· 签分布矩阵P={p,p2,…,p},其中p,=[papn d P,Pg为标签y对x,的预测表征度，该表征度用 0=arg min (2) p(vix:0) 最大嫡模型的表示，如式(1)所示： 1.3 已有的LDL算法表4列出了4种流行的LDL算法及其目标函 pyx;)月 (1) 数，表中第一行的SA-IS和SA-BFGS(special- 2n②a ized algorithm effective quasi-newton)两种算法使用相同的目标函数，它们均采用KL散度表征所为优化求解0，LDL算法的目标函数需约束有实例的真实分布与预测分布之间的差异。前者预测分布与真实分布之间的差异。文献[]构建使用类似于改进迭代缩放的策略作为其优化方了以KL散度为基础的目标函数，通过求解式法，后者使用BFGS算法作为其优化方法。该目 (2),可得到最优距离映射矩阵0，即标函数缺少正则项，易导致欠拟合。表4已有的4种流行的LDL算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法目标函数 d SA-IS、SA-BFGSIM 0=argmin =1 p6y;) LDLLCI6 0=argmin d p: ）+hIo啡+2∑sn(Pdis） =1=1 EDLP网 =argmin2(du-p) 台台a+p0: wxe,-0tl旧 n k=1=1 =1j1k= LDLLC1在IS-LLD算法的目标函数基础上本文设计的目标函数为增加了正则项和标签相关性项。如表4中第2行所示，等号右边第2项为距离映射矩阵0的F-范 ro-(3) 数，以防止过拟合。第3项为符号函数与不同距式中：等号右侧第1项用KL散度表征所有实例离共同决定的标签相关性项，其中符号函数由皮的真实分布与预测分布之间的差异；等号右侧第尔逊相关系数决定。但皮尔逊相关系数存在二项为本文亮点，设计标签相关性项以获得更好 “2个输入向量间应有线性关系”的约束条件，而的预测结果。距离映射矩阵0中的任意2个向量要满足该条件 2.1 标签相关性较为困难。本文的亮点为结合三元相关性和距离相关性 EDL(emotion distribution learning from 来描述标签之间的相关性，如式(4)所示： texts)2通过采用新散度公式表征所有实例的真 n(0.0）=sgn(triangle(0,0)-Dis(0,0）(4) 实分布与预测分布之间的差异，并增加2个约束式中：sgn(triangle(0,0)表征三元相关性，Dis(0: 项。如表4中第3行所示，等号右边第2项为距 0)表征距离相关性。sgn(triangle(0,0)》用三角距离映射矩阵0的1-范数，以防止过拟合。第3项离来表征标签之间存在何种相关性，即正相关用不同标签的特征向量之差的2-范数，再乘以基不相关或负相关；Dis(0,O)用Euclidean距离9表于Plutchik的情绪轮得到的权重，表征不同标签征标签之间的相关程度。之间的关系。该算法在情绪分类场景下表现由于使用皮尔逊相关系数时需要考虑任意较好。 2个向量是否存在线性关系，故提出一种不考虑该约束条件的新三角距离来衡量2个向量是否相 2本文工作关。这里，仅考虑2个向量0g以及2个向量之差0-0，设计该三角距离，且使得其取值范围为[-1,1]，如常见的LDL算法的输入为特征矩阵X与实式（⑤）所示：际标签分布矩阵D,输出为预测标签分布矩阵P, 构建距离映射矩阵0描述X和D之间的映射关 0-0)2 系。为了得到更精准的预测标签分布矩阵P,设 triangle(,）计目标函数是LDL算法工作的重点。本节重点介绍如何设计目标函数以及本文提出的T-LDL算法。签分布矩阵 P = {p1 , p2 , …, pi}，其中 pi = [pi1 pi2 … pic]，pij 为标签 yj 对 xi 的预测表征度，该表征度用最大熵模型[25] 表示，如式 (1) 所示： p(yj |xi ;θ)= exp   ∑q r=1 θkr xir   ∑c k=1 exp   ∑q r=1 θkr xir   (1) 为优化求解 θ，LDL 算法的目标函数需约束预测分布与真实分布之间的差异。文献 [1] 构建了以 KL 散度为基础的目标函数，通过求解式 (2)，可得到最优距离映射矩阵 θ * ，即 θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) (2) 1.3 已有的 LDL 算法表 4 列出了 4 种流行的 LDL 算法及其目标函数，表中第一行的 SA-IIS[1] 和 SA-BFGS(specialized algorithm effective quasi-newton)[1] 两种算法使用相同的目标函数，它们均采用 KL 散度表征所有实例的真实分布与预测分布之间的差异。前者使用类似于改进迭代缩放的策略作为其优化方法，后者使用 BFGS 算法作为其优化方法。该目标函数缺少正则项，易导致欠拟合。表 4 已有的 4 种流行的 LDL 算法及其目标函数 Table 4 Objective functions of four popular LDL algorithms 方法目标函数 SA-IIS、SA-BFGS[1] θ ∗= argmin θ ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) LDLLC[16] θ ∗= argmin θ ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ||θ||2 F +λ2 ∑c i=1 ∑c j=1 sgn(ρθi,θj )dis(ρθi,θj ) EDL[26] θ ∗= argmin θ 2 ∑n i=1 ∑c j=1 (di j − p(yj |xi ;θ))2 (di j + p(yj |xi ;θ))2 + λ1 n ∑c k=1 ∑q r=1 |θkr|1+ λ2 n ∑c u=1 ∑q j=1 ∑q k=1 ωjk||θu j −θuk||2 2 LDLLC[16] 在 IIS-LLD 算法的目标函数基础上增加了正则项和标签相关性项。如表 4 中第 2 行所示，等号右边第 2 项为距离映射矩阵 θ 的 F-范数，以防止过拟合。第 3 项为符号函数与不同距离共同决定的标签相关性项，其中符号函数由皮尔逊相关系数决定。但皮尔逊相关系数存在 “2 个输入向量间应有线性关系”的约束条件，而距离映射矩阵 θ 中的任意 2 个向量要满足该条件较为困难。 EDL(emotion distribution learning from texts)[26] 通过采用新散度公式表征所有实例的真实分布与预测分布之间的差异，并增加 2 个约束项。如表 4 中第 3 行所示，等号右边第 2 项为距离映射矩阵 θ 的 1-范数，以防止过拟合。第 3 项用不同标签的特征向量之差的 2-范数，再乘以基于 Plutchik 的情绪轮得到的权重，表征不同标签之间的关系。该算法在情绪分类场景下表现较好。 2 本文工作常见的 LDL 算法的输入为特征矩阵 X 与实际标签分布矩阵 D，输出为预测标签分布矩阵 P，构建距离映射矩阵 θ 描述 X 和 D 之间的映射关系。为了得到更精准的预测标签分布矩阵 P，设计目标函数是 LDL 算法工作的重点。本节重点介绍如何设计目标函数以及本文提出的 T-LDL 算法。本文设计的目标函数为 T(θ) = ∑n i=1 ∑c j=1 ( di j ln di j p ( yj |xi ;θ ) ) +λ1 ∑c i=1 ∑c j=1 η ( θi ,θj ) (3) 式中：等号右侧第 1 项用 KL 散度表征所有实例的真实分布与预测分布之间的差异；等号右侧第二项为本文亮点，设计标签相关性项以获得更好的预测结果。 2.1 标签相关性本文的亮点为结合三元相关性和距离相关性来描述标签之间的相关性，如式 (4) 所示： η ( θi ,θj ) = sgn(triangle ( θi ,θj ) )·Dis( θi ,θj ) (4) 式中：sgn(triangle(θi , θj )) 表征三元相关性，Dis(θi , θj ) 表征距离相关性。sgn(triangle(θi , θj )) 用三角距离来表征标签之间存在何种相关性，即正相关、不相关或负相关；Dis(θi , θj ) 用 Euclidean 距离[19] 表征标签之间的相关程度。由于使用皮尔逊相关系数时需要考虑任意 2 个向量是否存在线性关系，故提出一种不考虑该约束条件的新三角距离来衡量 2 个向量是否相关。这里，仅考虑2个向量θi、θj以及2个向量之差θi−θj，设计该三角距离，且使得其取值范围为 [−1,1]，如式 (5) 所示： triangle ( θi ,θj ) = 1− 2 √∑m k=1 (θik −θjk) 2 √∑m k=1 θik 2 + √∑m k=1 θjk 2 (5) 第 3 期黄雨婷，等：三角距离相关性的标签分布学习 ·451·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】三角距离相关性的标签分布学习