第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201312041 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150317.1025.002.html 一种新颖的领域自适应概率密度估计器 许敏12,俞林2 (1.江南大学数字媒体学院,江苏无锡214122;2.无锡职业技术学院物联网技术学院,江苏无锡214121) 摘要:传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。提出用无 偏置-SVR的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置SVR等价于中心约束最小 包含球及概率密度回归函数可由中心约束最小包含球中心点表示。在上述理论基础上提出中心点知识传递领域自 适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。实验表明,此种领域自适应方 法进行领域间知识传递的同时,还能达到源域隐私保护的目的。 关键词:概率密度函数;无偏置-SVR;中心约束最小包含球:核心集:领域自适应 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2015)02-0221-06 中文引用格式:许敏,俞林.一种新颖的领域自适应概率密度估计器[J].智能系统学报,2015,10(2):221-226. 英文引用格式:XU Min,YULin.A probability density estimator for domain adaptation[J].CAAI Transactions on Intelligent Sys- tems,2015,10(2):221-226. A probability density estimator for domain adaptation XU Min'2,YU Lin2 (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.School of Internet of Things Technology,Wuxi Institute of Technology,Wuxi 214121,China) Abstract:This paper proposes that the density information received from the traditional probability density estima- tion method can be represented by no bias v-SVRregression function.It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper,no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB)and the probability density regression function is constrained by CC-MEB's center point is described.On the basis of the a- bove theory,an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain.The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain. Keywords:probability density estimation;no bias v-SVR center-constrained minimum enclosing ball(CC-MEB); core set;domain adaptation 概率密度估计常见的做法是根据所得数据建立 概率密度函数(probability density function,PDF),在 机器学习和模式识别中具有非常重要的作用),如 收稿日期:2013-12-20.网络出版日期:2015-03-17 基金项目:江苏省高校自然科学研究资助项目(13KJB520001):江苏省聚类分析[2)]等。通常概率密度估计法分参数估计 高校哲学社会科学基金资助项目(2012SB880077):江苏省 研究生创新工程资助项目(CXZZ12-0759). 和非参数估计2类。因真实数据概率密度分布不可 通信作者:许敏.E-mail:xum@wit.cdu.cm. 知,故非参数核密度估计法(kernel density estima-
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201312041 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150317.1025.002.html 一种新颖的领域自适应概率密度估计器 许敏1 ,2 ,俞林2 (1.江南大学 数字媒体学院,江苏 无锡 214122; 2. 无锡职业技术学院 物联网技术学院,江苏 无锡 214121) 摘 要:传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。 提出用无 偏置 v⁃SVR 的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置 v⁃SVR 等价于中心约束最小 包含球及概率密度回归函数可由中心约束最小包含球中心点表示。 在上述理论基础上提出中心点知识传递领域自 适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。 实验表明,此种领域自适应方 法进行领域间知识传递的同时,还能达到源域隐私保护的目的。 关键词:概率密度函数;无偏置 v⁃SVR ;中心约束最小包含球;核心集;领域自适应 中图分类号: TP391.4 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0221⁃06 中文引用格式:许敏,俞林. 一种新颖的领域自适应概率密度估计器[J]. 智能系统学报, 2015, 10(2): 221⁃226. 英文引用格式:XU Min, YU Lin. A probability density estimator for domain adaptation[J]. CAAI Transactions on Intelligent Sys⁃ tems, 2015, 10(2): 221⁃226. A probability density estimator for domain adaptation XU Min 1 ,2 , YU Lin 2 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China) Abstract:This paper proposes that the density information received from the traditional probability density estima⁃ tion method can be represented by no bias v⁃SVRregression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v⁃SVR is equivalent to the center⁃constrained minimum enclosing ball (CC⁃MEB) and the probability density regression function is constrained by CC⁃MEB's center point is described. On the basis of the a⁃ bove theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain. Keywords:probability density estimation; no bias v⁃SVR ; center⁃constrained minimum enclosing ball(CC⁃MEB); core set; domain adaptation 收稿日期:2013⁃12⁃20. 网络出版日期:2015⁃03⁃17. 基金项目:江苏省高校自然科学研究资助项目( 13KJB520001);江苏省 高校哲学社会科学基金资助项目(2012SJB880077);江苏省 研究生创新工程资助项目(CXZZ12⁃0759). 通信作者:许敏. E⁃mail:xum@ wxit.edu.cn. 概率密度估计常见的做法是根据所得数据建立 概率密度函数(probability density function, PDF),在 机器学习和模式识别中具有非常重要的作用[1] ,如 聚类分析[2] 等。 通常概率密度估计法分参数估计 和非参数估计 2 类。 因真实数据概率密度分布不可 知,故非参数核密度估计法( kernel density estima⁃
.222. 智能系统学报 第10卷 ion,KDE))是采用较广泛的方法。因KDE需要 故引入映射函数p(x)将x:映射到高维空间p(x:) 所有样本参与计算且需存储所有数据,故压缩集概 中。无偏置-SVR原始优化问题如下: 率密度估计器)和快速压缩集概率密度估计器) 被提出以解决存储空间和运行效率问题。上述传统 的概率密度估计法效果显著但均未考虑领域间自适 st.wp(x:)-y:≤E+ 应学习的问题。在实际应用中存在这样的场景,已 y:-wp(x:)≤E+专: 有源域数据集数据量大、密度估计精确:但相关目标 专)≥0 (1) 域数据集由于隐私保护或数据遗失等原因只获得少 式中:(*)表示向量有*号和无*号2种情况。为 量数据,这些数据是目标域真实信息但却不足以建 导出原始问题(1)的对偶问题,引入拉格朗日函数: 立目标域PDF。如何既保证目标域已知数据对建 L(w,),),7)= 立目标域PDF的作用,又能利用源域知识对目标域 信息不足部分加以弥补是本文研究的重点。 w+A(e+2(传+ 1 1 DADE模型 i=1 1.1DADE模型理论依据 (2) 领域自适应概率密度估计器的应用前提是存在 含ae+f+re)-d 两相关领域,两域通过传统密度估计法,如Parzen 式中:a)=[a1a1°…a1a],n)= 窗法获得概率密度估计值,形成(x,y)对。其中,x [,刀,·…刀,,]是拉格朗日乘子向量。 是输入向量,y是概率密度估计值。源域(x,y)对 为了使式(2)最小化,对L关于向量w和变量 足以构建概率密度函数,而出于隐私保护或数据遗 6、)求偏导数,得 失等原因,一些高度机密的数据无法获得,所得少量 0L/dw=0=>w= (a°-a)e(x)(3) 目标域(x,y)信息精确,但不足以构建目标域概率 =1 密度函数。 aL/a8=0=> ∑(a,+a)=A (4) 传统密度估计法本身不能进行领域间知识传 al/aE)=0=> dn-a=0(5) 入 递,本文的贡献在于使用无偏置-SVR回归函数表 示概率密度函数,这样做的优势在于: 将式(3)、(4)带入式(2),可得对偶优化问题: 1)无偏置-SVR等价于CC-MEB的特性,可使 用核心集[6]代替源域所有数据建立概率密度函 min (a-a)(a-a)()- 2= 数,提高密度估计效率: 2)密度回归函数f(x)可由CC-MEB中心点表 含aax 示,提出中心点知识传递模型),实现相似领域间 领域自适应概率密度器的建立,若使用源域核心集 s.t∑(a+a:)= 代替所有源域样本表示源域中心点,还可起到源域 0≤a,)≤ (6) 隐私保护的目的。 1.2DADE模型架构 最终所得回归函数: 设训练集T={(x1),…,(xy)},其中输 g(x)=w'p(x)=E(a,'-a)p(x)"p(x) 入向量x:∈R”,输出向量y:∈Y=R为概率密度估 =1 计值,i=1,2,…,l。本文用无偏置支持向量回归 (7) 函数y=w(x)建立概率密度估计函数,与传统 概率密度函数p(x)需满足p(x)≥O, -SVR相比,没有b项,文章下面部分介绍无偏置 p(x)=1的条件,但无偏置SVR进行概率密 B-SVR 度估计时不能满足上述条件,故需添加约束 1.2.1无偏置-SVR 无偏置-SVR试图寻找R”上的一个实值函数 三(a”-a)=1,且核函数的选择清足 g(x),以便使用y=g(x)来推断任一输入x所对应 的输出值y。通常训练集在输入空间线性不可分, K(x,')≥0,K(x,r)d=1
tion, KDE) [3]是采用较广泛的方法。 因 KDE 需要 所有样本参与计算且需存储所有数据,故压缩集概 率密度估计器[4] 和快速压缩集概率密度估计器[5] 被提出以解决存储空间和运行效率问题。 上述传统 的概率密度估计法效果显著但均未考虑领域间自适 应学习的问题。 在实际应用中存在这样的场景,已 有源域数据集数据量大、密度估计精确;但相关目标 域数据集由于隐私保护或数据遗失等原因只获得少 量数据,这些数据是目标域真实信息但却不足以建 立目标域 PDF。 如何既保证目标域已知数据对建 立目标域 PDF 的作用,又能利用源域知识对目标域 信息不足部分加以弥补是本文研究的重点。 1 DADE 模型 1.1 DADE 模型理论依据 领域自适应概率密度估计器的应用前提是存在 两相关领域,两域通过传统密度估计法,如 Parzen 窗法获得概率密度估计值,形成 (x,y) 对。 其中, x 是输入向量, y 是概率密度估计值。 源域 (x,y) 对 足以构建概率密度函数,而出于隐私保护或数据遗 失等原因,一些高度机密的数据无法获得,所得少量 目标域 (x,y) 信息精确,但不足以构建目标域概率 密度函数。 传统密度估计法本身不能进行领域间知识传 递,本文的贡献在于使用无偏置 v⁃SVR 回归函数表 示概率密度函数,这样做的优势在于: 1)无偏置 v⁃SVR 等价于 CC⁃MEB 的特性,可使 用核心集[6⁃8] 代替源域所有数据建立概率密度函 数,提高密度估计效率; 2)密度回归函数 f(x) 可由 CC⁃MEB 中心点表 示,提出中心点知识传递模型[9] ,实现相似领域间 领域自适应概率密度器的建立,若使用源域核心集 代替所有源域样本表示源域中心点,还可起到源域 隐私保护的目的。 1.2 DADE 模型架构 设训练集 T = {( x1 ,y1 ),…,( xl,yl)} ,其中输 入向量 xi ∈ R n ,输出向量 yi ∈ Y = R 为概率密度估 计值, i = 1,2,…,l 。 本文用无偏置支持向量回归 函数 y = w Tφ(x) 建立概率密度估计函数,与传统 v⁃SVR 相比,没有 b 项,文章下面部分介绍无偏置 v⁃SVR 。 1.2.1 无偏置 v⁃SVR 无偏置 v⁃SVR 试图寻找 R n 上的一个实值函数 g(x) ,以便使用 y = g(x) 来推断任一输入 x 所对应 的输出值 y 。 通常训练集在输入空间线性不可分, 故引入映射函数 φ(x) 将 xi 映射到高维空间 φ(xi) 中。 无偏置 v⁃SVR 原始优化问题如下: min 1 2 ‖w‖2 + λ(vε + 1 l ∑ l i = 1 (ξi + ξi ∗ )) s.t.w Tφ(xi) - yi ≤ ε + ξi yi - w Tφ(xi) ≤ ε + ξi ∗ ξi (∗) ≥ 0 (1) 式中: (∗) 表示向量有∗号和无∗号 2 种情况。 为 导出原始问题(1)的对偶问题,引入拉格朗日函数: L(w,ξ (∗) ,α (∗) ,η (∗) ) = 1 2 ‖w‖2 + λ(ε + 1 vl∑ l i = 1 (ξi + ξi ∗ )) - ∑ l i = 1 (ηi ξi + ηi ∗ ξi ∗ ) - ∑ l i = 1 αi(ε + ξi - w Tφ(xi) + yi) - ∑ l i = 1 αi ∗ (ε + ξi ∗ + w Tφ(xi) - yi) (2) 式中: α (∗) = [α1 α1 ∗ … αl αl ∗ ] T , η (∗) = [η1 η1 ∗ … ηl ηl ∗ ] T 是拉格朗日乘子向量。 为了使式(2)最小化,对 L 关于向量 w 和变量 ε、 ξi (∗) 求偏导数,得 ∂L / ∂w = 0 = > w = ∑ l i = 1 (αi ∗ - αi)φ(xi) (3) ∂L / ∂ε = 0 = > ∑ l i = 1 (αi + αi ∗ ) = λ (4) ∂L / ∂ξi (∗) = 0 = > λ vl - ηi (∗) - αi (∗) = 0 (5) 将式(3) 、(4)带入式(2),可得对偶优化问题: min 1 2 ∑ l i = 1 ∑ l j = 1 (αi ∗ - αi)(αj ∗ - αj)K(xi,xj) - ∑ l i = 1 (αi ∗ - αi)yi s.t.∑ l i = 1 (αi + αi ∗ ) = λ 0 ≤ αi (∗) ≤ λ vl (6) 最终所得回归函数: g(x) = w Tφ(x) = ∑ l i = 1 (αi ∗ - αi)φ (xi) Tφ(x) (7) 概 率 密 度 函 数 p(x) 需 满 足 p(x) ≥ 0, ∫ +¥ -¥ p(x)dx = 1 的条件,但无偏置 v⁃SVR 进行概率密 度估 计 时 不 能 满 足 上 述 条 件, 故 需 添 加 约 束 ∑ l i = 1 (αi ∗ - αi) = 1, 且 核 函 数 的 选 择 满 足 K(x,x′) ≥0, ∫ +¥ -¥ K(x,x′)dx = 1。 ·222· 智 能 系 统 学 报 第 10 卷
第2期 许敏,等:一种新颖的领域自适应概率密度估计器 ·223· 1.2.2无偏置-SVR与CC-MEB 0≤a)≤ (12) 1)CC-MEB d Tsang等在文献[6]中介绍了最小包含球(mini- 令a=[a·TaxT],式(12)式相应的矩阵形式: mum enclosing ball,MEB)与中心约束最小包含球 2 (center-constrained MEB,CC-MEB)。设S={x1, x2,…,xm},其中x:∈R,MEB的思想是找到包含 min a'ka-a 集合S所有样本(x:)的最小球,则属于该类的数 2y (13) 据就在球中,不属于该类的数据就在球外。为每个 p(x)增加一维8:,形成集合S”= sLa'1=1,0≤&≤J Avl {((x)',6:)1,将最后一维中心点坐标设为0, 即中心点坐标(c,0),则找到包含集合S'中所有样 式中:=[(x】=上K门 「K-K 本的最小超球最优化问题为 式(13)为无偏置-SVR的QP形式,与式(11) minR2 相比较,求4的值: C.h s.t.‖o(x:)-c‖2+82≤R2,i=1,2,…,m (8) 4-e风+1+[] (14) 设4=[62822…82]'≥0,式(8)对应对偶问 式中:实数7足够大,以使4≥0。式就可以写成 题的矩阵形式为 a"(diag(K)+A-n1)a"Ka max B(diag(K)+A)-BTKB 1=1 (15) s.t.B≥0,Br1=1 (9) 该形式用x替换了B与式(11)等价,是CC 式中:核矩阵Km=[(x,)】= MEB问题,可使用核心集快速解法求解。 [p(x:)p(x)]。 按式(15)求解,球心c可按下面公式计算: 使用最优解B,可得到半径R、中心点c的值: R=√B'(diag(K)+△)-BKp c=∑aa(x) i=1 c=∑B,(x) (10) 式中i=1,2,…,m时p(x:)=(x:),i=m+1, 因为B1=1,任意实数)加入公式,不会影响 m+2,…,2m时,p(x;)=-(x:),由此可得: B的取值。原对偶形式改为 c= ∑a,e(x)= maxB'(diag(K))+A-n1)-B'K邓 s.tβ≥0,B1=1,4≥0 (11) 三e)·宫a~o 文献[6]指出,任意满足式(11)的QP问题均 能看作CC-MEB问题,可运用核心集快速算法求 三c-ae (16) 解。把整个数据集合S的求解转化成对S的一个子 式(3)中的w就可简化为w=入c。故 集Q的求解,可得到一个精确有效的近似解,其中Q g(x)=w'p(x)=入cp(x)= 被称为核心集。具体方法参见文献[6]。 2)无偏置-SVR与CC-MEB间关系 a(a-a,)e(x,)'e(x)= i=1 令a=,以满足三(a+a,)=1 A∑(a',-a:)() (17) 式(12)与式(6)等价。 由式(17)可获得以下两结论: 2名a”-- 1)无偏置-SVR等价于CC-MEB,故可用核心 min 集技术进行快速求解; (a.-a)y. 2)概率密度回归曲线可由其二次规划形式等 价的CC-MEB的中心点表示。 st∑(a+a)=1 1.2.3DADE模型 从1.2.2节分析可知,无偏置-SVR等价于CC-
1.2.2 无偏置 v⁃SVR 与 CC⁃MEB 1) CC⁃MEB Tsang 等在文献[6]中介绍了最小包含球(mini⁃ mum enclosing ball, MEB) 与中心约束最小包含球 ( center⁃constrained MEB, CC⁃MEB)。 设 S = { x1 , x2 ,…,xm } ,其中 xi ∈ R d ,MEB 的思想是找到包含 集合 S 所有样本 φ(xi) 的最小球,则属于该类的数 据就在球中,不属于该类的数据就在球外。 为每个 φ( xi) 增 加 一 维 δi , 形 成 集 合 S′ = {(φ(xi)′,δi)} m i = 1 ,将最后一维中心点坐标设为 0, 即中心点坐标(c,0),则找到包含集合 S’中所有样 本的最小超球最优化问题为 min c,R R 2 s.t.‖φ(xi) - c‖2 + δi 2 ≤ R 2 , i = 1,2,…,m (8) 设 Δ = [δ 1 2 δ 2 2 … δ 2 m ]′ ≥ 0,式(8)对应对偶问 题的矩阵形式为 max β β T (diag(K) + Δ) - β TKβ s.t. β ≥ 0,β T 1 = 1 (9) 式 中: 核 矩 阵 Km×m = [k( xi, xj)] = [φ (xi) T φ(xj)]。 使用最优解 β ,可得到半径 R、中心点 c 的值: R = β T (diag(K) + Δ) - β TKβ c = ∑ m i = 1 βiφ(xi) (10) 因为 β T 1 = 1,任意实数 η 加入公式,不会影响 β 的取值。 原对偶形式改为 max β β T (diag(K) + Δ - η 1) - β TKβ s.t.β ≥ 0,β T 1 = 1 ,Δ ≥ 0 (11) 文献[6]指出,任意满足式(11) 的 QP 问题均 能看作 CC⁃MEB 问题,可运用核心集快速算法求 解。 把整个数据集合 S 的求解转化成对 S 的一个子 集 Q 的求解,可得到一个精确有效的近似解,其中 Q 被称为核心集。 具体方法参见文献[6]。 2) 无偏置 v⁃SVR 与 CC⁃MEB 间关系 令 αi (∗) ′ = αi (∗) λ ,以满足 ∑ l i = 1 (αi ′ + αi ∗ ′) = 1, 式(12)与式(6)等价。 min 1 2 ∑ l i = 1 ∑ l j = 1 (αi ∗ ′ - αi ′)(αj ∗ ′ - αj ′)K(xi,xj) - 1 λ∑ l i = 1 (αi ∗ ′ - αi ′)yi s.t.∑ l i = 1 (αi ′ + αi ∗ ′) = 1 0 ≤ αi (∗) ≤ 1 vl (12) 令 α ~ = [α ∗ ′ T α′ T ] ,式(12)式相应的矩阵形式: min α ~ α ~ TK ~ α ~ - α ~ T 2 λ Y - 2 λ Y é ë ê ê ê ê ê ù û ú ú ú ú ú s.t.α ~ T 1 = 1,0 ≤ α ~ ≤ 1 λvl (13) 式中: K ~ = [ k ~ (xi,xj)] = K - K - K K é ë ê ê ù û ú ú 。 式(13)为无偏置 v⁃SVR 的 QP 形式,与式(11) 相比较,求 Δ 的值: Δ = - diag(K ~ ) + η 1 + 2 λ Y - Y é ë ê ê ù û ú ú (14) 式中:实数 η 足够大,以使 Δ ≥ 0。 式就可以写成 α ~ T (diag(K ~ ) + Δ - η 1) - α ~ TK ~ α ~ α ~ T 1 = 1 (15) 该形式用 α ~ 替换了 β 与式(11) 等价,是 CC⁃ MEB 问题,可使用核心集快速解法求解。 按式(15)求解,球心 c 可按下面公式计算: c = ∑ 2∗m i = 1 α ~ iφ ~ (xi) 式中 i = 1,2,…,m 时 φ ~ ( xi) = φ( xi) , i = m + 1, m +2,…,2m 时, φ ~ (xi) = - φ(xi) ,由此可得: c = ∑ 2∗m i = 1 α ~ iφ ~ (xi) = ∑ m i = 1 α′iφ(xi) + ∑ m i = 1 α ∗ ′i( - φ(xi)) = ∑ m i = 1 (α′i - α ∗ ′i)φ(xi) (16) 式(3)中的 w 就可简化为 w = λc 。 故 g(x) = w Tφ(x) = λ c Tφ(x) = λ∑ m i = 1 (α ∗ ′i - α′i)φ (xi) Tφ(x) = λ∑ m i = 1 (α ∗ ′i - α′i)K(xi,xj) (17) 由式(17)可获得以下两结论: 1)无偏置 v⁃SVR 等价于 CC⁃MEB,故可用核心 集技术进行快速求解; 2)概率密度回归曲线可由其二次规划形式等 价的 CC⁃MEB 的中心点表示。 1.2.3 DADE 模型 从 1.2.2 节分析可知,无偏置 v⁃SVR 等价于 CC⁃ 第 2 期 许敏,等:一种新颖的领域自适应概率密度估计器 ·223·
.224 智能系统学报 第10卷 MEB,概率密度函数由CC-MEB中心点表示。在此 文所提算法的优势。 理论基础上,本文提出通过学习源域中心点将源域 实验中将DADE方法与上述相关的方法进行性 知识传递给目标域,构造学习源域知识且与目标域 能比较,以目标域测试集概率密度估计精度作为评价 无偏置-SVR等价的CC-MEB,此CC-MEB的中心 指标,具体为:error= 点可用于目标域概率密度函数的建立。 之0)-脚 学习源域中心点的CC-MEB原始问题如下: x:表示目标域测试集元素,f(x:)表示x:的真实密度 minR2 +ullc-co ll 2 值,f(x:)表示各算法所得x:概率密度估计值,N值 c.A s.t.lp(x:)-c‖2+62≤R2 (18) 为500。实验通过网格搜索方式确定最优参数,高斯 引入拉格朗日乘子变量,在约束条件下构造式 核函数的方差h在网格{x/22,x/2,x/√2,x,2x, (18)的拉格朗日函数: 2x,22x}中搜索选取,其中x为训练样本平均2范 L=R2+u‖c-coI2+ 数的平方根;入参数在网格{1,2,3,4,5,6,7,8,9,10 盒1o)-e+-) (19) 中搜索选取:参数在网格{1×10,1×10,1×102, 1×10,1}中搜索选取:μ参数在网格{1,2,3,4,5,6, 由最优化理论可知,式(19)在鞍点处取极值, 7,8,9,10,15,20}中搜索选取。 在鞍点处L关于变量c和R的偏微分: 实验环境为:Intel Core22.40 GHz CPU,2.39 -R-2R克=0=>立x-1 GHz、1.94 GB RAM,Windows XP SP3,MATLAB7.1。 aR i=1 2.2实验结果与分析 aL =2μIc-c‖+2∑y.(e(x)-c)=0 为了利用源域知识弥补当前场景下信息过少造 ac i=1 成受训系统泛化能力下降之缺陷,模拟数据集的构 uco+∑y:e(x) 造需遵循以下原则:1)源域和目标域之间既有很大 相似性,又存在区别:2)已知的目标域数据集(x,y) =>C= (20) u I 是精确的,但由于样本过少,不能构建出概率密度估 将(20)代入(19),该问题的对偶形式为: 计回归函数。 ma2(lex)12-2ce2+6.- 为了表征上述原则,首先生成样本数较多且能 u+1 精确表示概率密度分布均值为0、方差为1的源域 L立e(x)'p 数据集,需指出的是文章1.2.2节说明无偏置r-SVR p+1 与CC-MEB等价且概率密度函数可由CC-MEB中 心点组成,若源域有数据隐私保护的需要,还可通过 s.t∑y:=1 (21) 核心集技术,求得源域数据集的核心集,由少量核心 式中:(x:)p(x)=K(x,x),co由源域无偏 集元素表示源域CC-MEB的中心点,进行迁移学 置-SVR训练按式(16)获得,δ:由目标域样本按 习。另一方面,为了表示目标域与源域相近但不同, 式(14)获得。求解式(21)二次规划,按式(20) 目标域设置时对均值、方差进行漂移,分均值、方差、 获得中心点带入式(22)即可获得目标域概率密 均值方差均漂移3种情况,如表1所示。 表1数据源描述 度回归函数: Table 1 Description of the data source g(x)=w"o(x)=Ac"o(x)= 数据源 均值方差 ue,+∑e(x) 源域 0 1 0.1 1 入 (22) 目标域(均值漂移) u+1 一p(x) 目标域(方差漂移) 0 1.1 2 实验与分析 目标域(均值、方差漂移)0.1 1.1 由于隐私保护等原因,目标域获得信息量少且 2.1实验设置 精确,但不足以构建目标域概率密度函数。图1(a) 本文实验将本文所提算法与如下3个方面的回 虚线显示了均值为0、方差为1.1时目标域真实概率 归函数进行性能对比:1)直接使用源域数据构建概 密度分布图,图1(b)显示了此种情况下目标域自适 率密度回归函数:2)直接使用包含少量信息的目标 应学习效果图。图2将本文所提算法与另外3种训 域数据构建概率密度回归函数;3)使用源域、目标 练方法进行比较。 域数据共同构建概率密度回归函数。从而来体现本
MEB,概率密度函数由 CC⁃MEB 中心点表示。 在此 理论基础上,本文提出通过学习源域中心点将源域 知识传递给目标域,构造学习源域知识且与目标域 无偏置 v⁃SVR 等价的 CC⁃MEB,此 CC⁃MEB 的中心 点可用于目标域概率密度函数的建立。 学习源域中心点的 CC⁃MEB 原始问题如下: min c,R R 2 + μ‖c - c0‖2 s.t.‖φ(xi) - c‖2 + δi 2 ≤ R 2 (18) 引入拉格朗日乘子变量,在约束条件下构造式 (18)的拉格朗日函数: L = R 2 + μ‖c - c0‖2 + ∑ l i = 1 γi(‖φ(xi) - c‖2 + δi 2 - R 2 ) (19) 由最优化理论可知,式(19) 在鞍点处取极值, 在鞍点处 L 关于变量 c 和 R 的偏微分: ∂L ∂R = 2R - 2R∑ N i = 1 γi = 0 = > ∑ N i = 1 γi = 1 ∂L ∂c = 2μ‖c - c0‖ + 2∑ N i = 1 γi(φ(xi) - c) = 0 = > c = μ c0 + ∑ l i = 1 γiφ(xi) μ + 1 (20) 将(20)代入(19),该问题的对偶形式为: max γ ∑ N i = 1 (‖φ(xi)‖2 - 2μ c0 Tφ(xi) μ + 1 + δi 2 )γi - 1 μ + 1∑ l i = 1 ∑ l j = 1 γiγjφ(xi) Tφ(xj) s.t.∑γi = 1 (21) 式中: φ( xi)φ( xj) = K ~ ( xi,xj) , c0 由源域无偏 置 v⁃SVR 训练按式( 16)获得, δ i 由目标域样本按 式( 14)获得。 求解式( 21) 二次规划,按式( 20) 获得中心点带入式( 22) 即可获得目标域概率密 度回归函数: g(x) = w Tφ(x) = λ c Tφ(x) = λ μ c0 T + ∑ l i = 1 γiφ (xi) T μ + 1 φ(x) (22) 2 实验与分析 2.1 实验设置 本文实验将本文所提算法与如下 3 个方面的回 归函数进行性能对比:1)直接使用源域数据构建概 率密度回归函数; 2)直接使用包含少量信息的目标 域数据构建概率密度回归函数;3) 使用源域、目标 域数据共同构建概率密度回归函数。 从而来体现本 文所提算法的优势。 实验中将 DADE 方法与上述相关的方法进行性 能比较,以目标域测试集概率密度估计精度作为评价 指标,具体为: error = 1 N∑ N i = 1 (f(xi) - f ^ (xi)) 2 , 其中 xi 表示目标域测试集元素, f(xi) 表示 xi 的真实密度 值, f ^ (xi) 表示各算法所得 xi 概率密度估计值,N 值 为 500。 实验通过网格搜索方式确定最优参数,高斯 核函数的方差 h 在网格 {x ⁃ / 2 2 ,x - / 2,x - / 2,x - , 2 x - , 2x - ,2 2 x - } 中搜索选取, 其中 x - 为训练样本平均 2 范 数的平方根; λ 参数在网格{1,2,3,4,5,6,7,8,9,10} 中搜索选取; v 参数在网格{1×10 -4 ,1×10 -3 ,1×10 -2 , 1×10 -1 ,1}中搜索选取; μ 参数在网格{1,2,3,4,5,6, 7,8,9,10,15,20}中搜索选取。 实验环境为:Intel Core 2 2. 40 GHz CPU, 2. 39 GHz、1.94 GB RAM,Windows XP SP3, MATLAB 7.1。 2.2 实验结果与分析 为了利用源域知识弥补当前场景下信息过少造 成受训系统泛化能力下降之缺陷,模拟数据集的构 造需遵循以下原则:1)源域和目标域之间既有很大 相似性,又存在区别;2)已知的目标域数据集 (x,y) 是精确的,但由于样本过少,不能构建出概率密度估 计回归函数。 为了表征上述原则,首先生成样本数较多且能 精确表示概率密度分布均值为 0、方差为 1 的源域 数据集,需指出的是文章 1.2.2 节说明无偏置 v⁃SVR 与 CC⁃MEB 等价且概率密度函数可由 CC⁃MEB 中 心点组成,若源域有数据隐私保护的需要,还可通过 核心集技术,求得源域数据集的核心集,由少量核心 集元素表示源域 CC⁃MEB 的中心点,进行迁移学 习。 另一方面,为了表示目标域与源域相近但不同, 目标域设置时对均值、方差进行漂移,分均值、方差、 均值方差均漂移 3 种情况,如表 1 所示。 表 1 数据源描述 Table 1 Description of the data source 数据源 均值 方差 源域 0 1 目标域(均值漂移) 0.1 1 目标域(方差漂移) 0 1.1 目标域(均值、方差漂移) 0.1 1.1 由于隐私保护等原因,目标域获得信息量少且 精确,但不足以构建目标域概率密度函数。 图 1(a) 虚线显示了均值为 0、方差为 1.1 时目标域真实概率 密度分布图,图 1(b)显示了此种情况下目标域自适 应学习效果图。 图 2 将本文所提算法与另外 3 种训 练方法进行比较。 ·224· 智 能 系 统 学 报 第 10 卷
第2期 许敏,等:一种新颖的领域自适应概率密度估计器 .225. 0.4 0.40 源域 目标域真实 目标域真实 0.35 : 一…目标域 0.3 ·目标域已知 0.30 0.25 、 0.2 0.20f 0.15 0.1 0.10 0.05 0 -0.05 -2 0. 0 -2 0 x (b)目标域性能 (a)源域、目标域概率密度分布图 0.40 ·,目标域直实 0.4 源域 0.35 ”·源域日标域合并 目标域真实 0.30 0.3 …目标域 0.25 从=] ! 0.20 ! =3 0.2 =4 0.15 ! 0.10 0.1 0.05 0 0 -0.05 4 0 x -0.1 -2 0 2 (©)源域目标域合并性能 0.40 (b)自适应学习效果图 ·目标域真实 0.35 目标域+知识 图1均值为0、方差为1.1自适应学习效果图 0.30 Fig.I Charts of adaptive learning on the data set with 0.25 mean 0,variance 1.1 0.20 0.40 0.15 …目标域真实 0.35 0.10 --源域 0.30 0.05 0.25 0 ! -4 0 =0.20 0.15 (d)自适应学习性能 0.10 图2 原始图像和退化仿真图像 0.05 Fig.2 Performance comparison charts of different algorithms 0 -2 0 2 表2列出了设置目标域不同均值方差后各算法 的性能。 (a)源域性能 表2不同算法性能比较 Table 2 Performances comparison of different algorithms 源域 目标域 源域+日标域 源域知识+目标域 均值 方差 密度估计性能 密度估计性能 密度估计性能 密度估计性能 u值 0 1.1 2.2821×104 0.0032 2.2792×104 3.1255×106 0 1.2 7.9592×10+ 0.0029 7.9591×104 1.6095×10-9 3 0.1 1.7574×104 0.0032 1.7573×10 3.7635×10-7 8 0.2 1 7.0032×104 0.0035 7.0030×104 6.6461×10-5 20 0.1 1.1 3.7952×104 0.0025 3.2576×104 1.4511×10-6 5 0.2 1.2 0.0013 0.0041 0.0013 5.4453×106 > 生成均值为0、方差为1源域样本10000个,如 可获得。虚线表示均值为0、方差为1.1的目标域真 图1(a)所示,实线表示源域概率密度函数曲线,使 实概率密度函数曲线。由图1(a)可以看出,源域、 用核心集技术获得源域的核心集由13个空心圆表 目标域分布近似但不相同。图1(a)中5实点表示 示,源域知识只需知道模型参数和这13个样本点即 目标域已知信息,为了体现数据隐私保护的目的,文
(a) 源域、目标域概率密度分布图 (b)自适应学习效果图 图 1 均值为 0、方差为 1.1 自适应学习效果图 Fig.1 Charts of adaptive learning on the data set with mean 0, variance 1.1 (a)源域性能 (b)目标域性能 (c)源域目标域合并性能 (d)自适应学习性能 图 2 原始图像和退化仿真图像 Fig.2 Performance comparison charts of different algorithms 表 2 列出了设置目标域不同均值方差后各算法 的性能。 表 2 不同算法性能比较 Table 2 Performances comparison of different algorithms 均值 方差 源域 密度估计性能 目标域 密度估计性能 源域+目标域 密度估计性能 源域知识+目标域 密度估计性能 μ 值 0 1.1 2.282 1×10 -4 0.003 2 2.279 2×10 -4 3.125 5×10 -6 4 0 1.2 7.959 2×10 -4 0.002 9 7.959 1×10 -4 1.609 5×10 -6 2 0.1 1 1.757 4×10 -4 0.003 2 1. 757 3×10 -4 3.763 5×10 -7 8 0.2 1 7.003 2×10 -4 0.003 5 7.003 0×10 -4 6.646 1×10 -5 20 0.1 1.1 3.795 2×10 -4 0.002 5 3.257 6×10 -4 1.451 1×10 -6 5 0.2 1.2 0.001 3 0.004 1 0.001 3 5.445 3×10 -6 7 生成均值为 0、方差为 1 源域样本 10 000 个,如 图 1(a)所示,实线表示源域概率密度函数曲线,使 用核心集技术获得源域的核心集由 13 个空心圆表 示,源域知识只需知道模型参数和这 13 个样本点即 可获得。 虚线表示均值为 0、方差为 1.1 的目标域真 实概率密度函数曲线。 由图 1( a)可以看出,源域、 目标域分布近似但不相同。 图 1( a)中 5 实点表示 目标域已知信息,为了体现数据隐私保护的目的,文 第 2 期 许敏,等:一种新颖的领域自适应概率密度估计器 ·225·
·226· 智能系统学报 第10卷 中实验选取的5个样本均在[-1,1]之外。点划线 信息较少无法构建概率密度函数的问题。本文所提方 表示由这5个点获得的目标域概率密度函数曲线。 法不需要大量源域数据的支持,仅是继承历史知识(源 由图可知,虽然已知信息精确,但信息过少不能反映 域中心点),且允许当前领域信息较少,不但能够根据 目标域真实概率密度分布。图1(b)显示了不同μ 历史知识进行当前领域的信息补偿,又能对源域数据 值自适应学习效果图,随着μ值的增大,目标域概率 进行隐私保护,这些特性是传统概率密度估计方法所 密度曲线向目标域真实分布靠拢。此种自适应学习 不具备的。通过合成数据的仿真实验表明本文方法较 的优势在于,既可保证目标域已知信息精确表示,又 之于传统方法具有更好的适应性。 可通过源域知识对未知信息进行自适应学习,极大 提高目标域概率密度估计性能。 参考文献: 根据表2和图2,可给出如下的观察: [1]VAPNIK V N.Statistical learning theory [M].New York: 1)从表2可知,本文提出的DA-PDF算法充分 John Wiley and Sons,1998:35-41. 利用目标域已知信息的同时,学习了源域知识,较之 [2]吉根林,姚瑶.一种分布式隐私保护的密度聚类算法 于两域各自训练、合并训练所得概率密度估计函数 [J].智能系统学报,2009,4(2):137-141. 具有更好的性能。 JI Genlin,YAO Yao.Density-based privacy preserving dis- tributed clustering algorithm[J].CAAI Transactions on In- 2)对图2(a)可知,若直接使用源域概率密度 telligent Systems,2009,4(2):137-141. 估计函数对现有测试集进行密度估计,效果不理想, [3]PARZEN E.On estimation of a probability density function 其原因在于目标域与源域密度分布已发生变化(源 and mode J.The Annals of Mathematical Statistics,1962. 域方差为1,目标域方差为1.1),这种变化导致若继 33(3):1065-1076. 续使用源域模型进行预测,其预测性能不好,无法达[4]GIROLAMI M,HEC.Probability density estimation from 到与目标域实际情况逼近的效果。 optimally condensed data samples[J].IEEE Transactions on 3)对图2(b)可知,由于在当前场景下采集的数据 Pattern Analysis and Machine Intelligence,2003,25(10): 数量较少,虽然这些数据真实可靠,但对于构建整个概 1253-1264. 率密度估计函数信息量过少,故密度估计性能低下。 [5]DENG Z H,CHUNG F L.WANG S T.FRSDE:Fast re- duced set density estimator using minimal enclosing ball ap- 4)对图2(c)可知,使用源域数据与目标域数 proximation[J].Pattern Recognition,2008,41(4):1363- 据结合后生成的概率密度估计函数,其性能提升不 1372. 明显。原因在于源域数据较之目标域收集到的数 [6]TSANG I W,KWOK J T,ZURADA J M.Generalized core 据,数据量大,因此在模型训练时,其所占的比重也 vector machines [J].IEEE Transactions on Neural Net- 大,故得到的概率密度估计函数最终更偏向于源域 works,.2006,17(5):1126-1140. 数据所得模型。合并训练另一缺点是需要源域所有 [7]TSANG I W,KWOK J T,CHEUNG P M.Core vector ma- 数据参与模型的建立,但一些高度机密的历史数据 chines:fast SVM training on very large data sets[J].Jour- 通常难以获取,若源域有数据隐私保护的需要,此种 nal of Machine Learning Research,2005(6):363-392. 方法则无法实现。 [8]CHU C S,TSANG I W,KWOK J K.Scaling up support 5)从图2(d)可知:本文方法较之图2(a)有更 vector data description by using core-sets[C//IEEE Inter- 好的逼近效果:与图2(b)相比,可利用源域知识较 national Joint Conference on Neural Networks.Budapest, Hungary:2004:425-430. 好地弥补目标域信息不足的缺陷:与图2(c)相比, [9]许敏,王士同.基于最小包含球的大数据集域自适应快速算 不仅逼近程度有明显改进,且本文方法只需要历史 法[J刀.模式识别与人工智能,2013,26(2):159-168. 知识(历史模型参数)以及目标域数据,并不需要源 XU Min,WANG Shitong.A fast learning algorithm based on 域数据作为训练数据,因而在隐私保护方面也体现 minimum enclosing ball for large domain adaptation[J].Pat- 了较大优势。 tern Recognition and Artificial Intelligence,2013,26(2): 159-168 3结束语 作者简介: 本文采用无偏置-SVR对已知概率密度(x,y)对 许敏:女,1980年生,讲师,博士,主 要研究方向为模式识别、人工智能。 进行概率密度函数建模,并证明无偏置-SVR等价于 CC-MEB且概率密度回归函数可由CC-MEB中心点表 示,以此为前提,提出中心点领域自适应学习的概率密 度估计函数建模思想,解决多领域相关联且某一领域
中实验选取的 5 个样本均在[ -1,1] 之外。 点划线 表示由这 5 个点获得的目标域概率密度函数曲线。 由图可知,虽然已知信息精确,但信息过少不能反映 目标域真实概率密度分布。 图 1( b) 显示了不同 μ 值自适应学习效果图,随着 μ 值的增大,目标域概率 密度曲线向目标域真实分布靠拢。 此种自适应学习 的优势在于,既可保证目标域已知信息精确表示,又 可通过源域知识对未知信息进行自适应学习,极大 提高目标域概率密度估计性能。 根据表 2 和图 2,可给出如下的观察: 1) 从表 2 可知,本文提出的 DA⁃PDF 算法充分 利用目标域已知信息的同时,学习了源域知识,较之 于两域各自训练、合并训练所得概率密度估计函数 具有更好的性能。 2) 对图 2( a)可知,若直接使用源域概率密度 估计函数对现有测试集进行密度估计,效果不理想, 其原因在于目标域与源域密度分布已发生变化(源 域方差为 1,目标域方差为 1.1),这种变化导致若继 续使用源域模型进行预测,其预测性能不好,无法达 到与目标域实际情况逼近的效果。 3) 对图 2(b)可知,由于在当前场景下采集的数据 数量较少,虽然这些数据真实可靠,但对于构建整个概 率密度估计函数信息量过少,故密度估计性能低下。 4) 对图 2( c)可知,使用源域数据与目标域数 据结合后生成的概率密度估计函数,其性能提升不 明显。 原因在于源域数据较之目标域收集到的数 据,数据量大,因此在模型训练时,其所占的比重也 大,故得到的概率密度估计函数最终更偏向于源域 数据所得模型。 合并训练另一缺点是需要源域所有 数据参与模型的建立,但一些高度机密的历史数据 通常难以获取,若源域有数据隐私保护的需要,此种 方法则无法实现。 5) 从图 2(d)可知:本文方法较之图 2( a)有更 好的逼近效果;与图 2( b)相比,可利用源域知识较 好地弥补目标域信息不足的缺陷;与图 2( c)相比, 不仅逼近程度有明显改进,且本文方法只需要历史 知识(历史模型参数)以及目标域数据,并不需要源 域数据作为训练数据,因而在隐私保护方面也体现 了较大优势。 3 结束语 本文采用无偏置 v⁃SVR 对已知概率密度 (x,y) 对 进行概率密度函数建模,并证明无偏置 v⁃SVR 等价于 CC⁃MEB 且概率密度回归函数可由 CC⁃MEB 中心点表 示,以此为前提,提出中心点领域自适应学习的概率密 度估计函数建模思想,解决多领域相关联且某一领域 信息较少无法构建概率密度函数的问题。 本文所提方 法不需要大量源域数据的支持,仅是继承历史知识(源 域中心点),且允许当前领域信息较少,不但能够根据 历史知识进行当前领域的信息补偿,又能对源域数据 进行隐私保护,这些特性是传统概率密度估计方法所 不具备的。 通过合成数据的仿真实验表明本文方法较 之于传统方法具有更好的适应性。 参考文献: [1]VAPNIK V N. Statistical learning theory [M]. New York: John Wiley and Sons, 1998: 35⁃41. [2]吉根林, 姚瑶. 一种分布式隐私保护的密度聚类算法 [J].智能系统学报, 2009, 4(2):137⁃141. JI Genlin, YAO Yao. Density⁃based privacy preserving dis⁃ tributed clustering algorithm[ J]. CAAI Transactions on In⁃ telligent Systems, 2009, 4(2):137⁃141. [3]PARZEN E. On estimation of a probability density function and mode[J]. The Annals of Mathematical Statistics, 1962, 33(3): 1065⁃1076. [4] GIROLAMI M, HE C. Probability density estimation from optimally condensed data samples[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25 (10): 1253⁃1264. [5]DENG Z H, CHUNG F L, WANG S T. FRSDE: Fast re⁃ duced set density estimator using minimal enclosing ball ap⁃ proximation[J]. Pattern Recognition, 2008, 41( 4):1363⁃ 1372. [6]TSANG I W, KWOK J T, ZURADA J M. Generalized core vector machines [ J ]. IEEE Transactions on Neural Net⁃ works, 2006, 17(5): 1126⁃1140. [7]TSANG I W, KWOK J T, CHEUNG P M. Core vector ma⁃ chines: fast SVM training on very large data sets[ J]. Jour⁃ nal of Machine Learning Research, 2005(6): 363⁃392. [8] CHU C S, TSANG I W, KWOK J K. Scaling up support vector data description by using core⁃sets[C] / / IEEE Inter⁃ national Joint Conference on Neural Networks. Budapest, Hungary: 2004: 425⁃430. [9]许敏,王士同. 基于最小包含球的大数据集域自适应快速算 法[J]. 模式识别与人工智能, 2013, 26(2): 159⁃168. XU Min, WANG Shitong. A fast learning algorithm based on minimum enclosing ball for large domain adaptation[J]. Pat⁃ tern Recognition and Artificial Intelligence, 2013, 26( 2): 159⁃168. 作者简介: 许敏:女,1980 年生,讲师,博士,主 要研究方向为模式识别、人工智能。 ·226· 智 能 系 统 学 报 第 10 卷