正在加载图片...
·226· 智能系统学报 第10卷 中实验选取的5个样本均在[-1,1]之外。点划线 信息较少无法构建概率密度函数的问题。本文所提方 表示由这5个点获得的目标域概率密度函数曲线。 法不需要大量源域数据的支持,仅是继承历史知识(源 由图可知,虽然已知信息精确,但信息过少不能反映 域中心点),且允许当前领域信息较少,不但能够根据 目标域真实概率密度分布。图1(b)显示了不同μ 历史知识进行当前领域的信息补偿,又能对源域数据 值自适应学习效果图,随着μ值的增大,目标域概率 进行隐私保护,这些特性是传统概率密度估计方法所 密度曲线向目标域真实分布靠拢。此种自适应学习 不具备的。通过合成数据的仿真实验表明本文方法较 的优势在于,既可保证目标域已知信息精确表示,又 之于传统方法具有更好的适应性。 可通过源域知识对未知信息进行自适应学习,极大 提高目标域概率密度估计性能。 参考文献: 根据表2和图2,可给出如下的观察: [1]VAPNIK V N.Statistical learning theory [M].New York: 1)从表2可知,本文提出的DA-PDF算法充分 John Wiley and Sons,1998:35-41. 利用目标域已知信息的同时,学习了源域知识,较之 [2]吉根林,姚瑶.一种分布式隐私保护的密度聚类算法 于两域各自训练、合并训练所得概率密度估计函数 [J].智能系统学报,2009,4(2):137-141. 具有更好的性能。 JI Genlin,YAO Yao.Density-based privacy preserving dis- tributed clustering algorithm[J].CAAI Transactions on In- 2)对图2(a)可知,若直接使用源域概率密度 telligent Systems,2009,4(2):137-141. 估计函数对现有测试集进行密度估计,效果不理想, [3]PARZEN E.On estimation of a probability density function 其原因在于目标域与源域密度分布已发生变化(源 and mode J.The Annals of Mathematical Statistics,1962. 域方差为1,目标域方差为1.1),这种变化导致若继 33(3):1065-1076. 续使用源域模型进行预测,其预测性能不好,无法达[4]GIROLAMI M,HEC.Probability density estimation from 到与目标域实际情况逼近的效果。 optimally condensed data samples[J].IEEE Transactions on 3)对图2(b)可知,由于在当前场景下采集的数据 Pattern Analysis and Machine Intelligence,2003,25(10): 数量较少,虽然这些数据真实可靠,但对于构建整个概 1253-1264. 率密度估计函数信息量过少,故密度估计性能低下。 [5]DENG Z H,CHUNG F L.WANG S T.FRSDE:Fast re- duced set density estimator using minimal enclosing ball ap- 4)对图2(c)可知,使用源域数据与目标域数 proximation[J].Pattern Recognition,2008,41(4):1363- 据结合后生成的概率密度估计函数,其性能提升不 1372. 明显。原因在于源域数据较之目标域收集到的数 [6]TSANG I W,KWOK J T,ZURADA J M.Generalized core 据,数据量大,因此在模型训练时,其所占的比重也 vector machines [J].IEEE Transactions on Neural Net- 大,故得到的概率密度估计函数最终更偏向于源域 works,.2006,17(5):1126-1140. 数据所得模型。合并训练另一缺点是需要源域所有 [7]TSANG I W,KWOK J T,CHEUNG P M.Core vector ma- 数据参与模型的建立,但一些高度机密的历史数据 chines:fast SVM training on very large data sets[J].Jour- 通常难以获取,若源域有数据隐私保护的需要,此种 nal of Machine Learning Research,2005(6):363-392. 方法则无法实现。 [8]CHU C S,TSANG I W,KWOK J K.Scaling up support 5)从图2(d)可知:本文方法较之图2(a)有更 vector data description by using core-sets[C//IEEE Inter- 好的逼近效果:与图2(b)相比,可利用源域知识较 national Joint Conference on Neural Networks.Budapest, Hungary:2004:425-430. 好地弥补目标域信息不足的缺陷:与图2(c)相比, [9]许敏,王士同.基于最小包含球的大数据集域自适应快速算 不仅逼近程度有明显改进,且本文方法只需要历史 法[J刀.模式识别与人工智能,2013,26(2):159-168. 知识(历史模型参数)以及目标域数据,并不需要源 XU Min,WANG Shitong.A fast learning algorithm based on 域数据作为训练数据,因而在隐私保护方面也体现 minimum enclosing ball for large domain adaptation[J].Pat- 了较大优势。 tern Recognition and Artificial Intelligence,2013,26(2): 159-168 3结束语 作者简介: 本文采用无偏置-SVR对已知概率密度(x,y)对 许敏:女,1980年生,讲师,博士,主 要研究方向为模式识别、人工智能。 进行概率密度函数建模,并证明无偏置-SVR等价于 CC-MEB且概率密度回归函数可由CC-MEB中心点表 示,以此为前提,提出中心点领域自适应学习的概率密 度估计函数建模思想,解决多领域相关联且某一领域中实验选取的 5 个样本均在[ -1,1] 之外。 点划线 表示由这 5 个点获得的目标域概率密度函数曲线。 由图可知,虽然已知信息精确,但信息过少不能反映 目标域真实概率密度分布。 图 1( b) 显示了不同 μ 值自适应学习效果图,随着 μ 值的增大,目标域概率 密度曲线向目标域真实分布靠拢。 此种自适应学习 的优势在于,既可保证目标域已知信息精确表示,又 可通过源域知识对未知信息进行自适应学习,极大 提高目标域概率密度估计性能。 根据表 2 和图 2,可给出如下的观察: 1) 从表 2 可知,本文提出的 DA⁃PDF 算法充分 利用目标域已知信息的同时,学习了源域知识,较之 于两域各自训练、合并训练所得概率密度估计函数 具有更好的性能。 2) 对图 2( a)可知,若直接使用源域概率密度 估计函数对现有测试集进行密度估计,效果不理想, 其原因在于目标域与源域密度分布已发生变化(源 域方差为 1,目标域方差为 1.1),这种变化导致若继 续使用源域模型进行预测,其预测性能不好,无法达 到与目标域实际情况逼近的效果。 3) 对图 2(b)可知,由于在当前场景下采集的数据 数量较少,虽然这些数据真实可靠,但对于构建整个概 率密度估计函数信息量过少,故密度估计性能低下。 4) 对图 2( c)可知,使用源域数据与目标域数 据结合后生成的概率密度估计函数,其性能提升不 明显。 原因在于源域数据较之目标域收集到的数 据,数据量大,因此在模型训练时,其所占的比重也 大,故得到的概率密度估计函数最终更偏向于源域 数据所得模型。 合并训练另一缺点是需要源域所有 数据参与模型的建立,但一些高度机密的历史数据 通常难以获取,若源域有数据隐私保护的需要,此种 方法则无法实现。 5) 从图 2(d)可知:本文方法较之图 2( a)有更 好的逼近效果;与图 2( b)相比,可利用源域知识较 好地弥补目标域信息不足的缺陷;与图 2( c)相比, 不仅逼近程度有明显改进,且本文方法只需要历史 知识(历史模型参数)以及目标域数据,并不需要源 域数据作为训练数据,因而在隐私保护方面也体现 了较大优势。 3 结束语 本文采用无偏置 v⁃SVR 对已知概率密度 (x,y) 对 进行概率密度函数建模,并证明无偏置 v⁃SVR 等价于 CC⁃MEB 且概率密度回归函数可由 CC⁃MEB 中心点表 示,以此为前提,提出中心点领域自适应学习的概率密 度估计函数建模思想,解决多领域相关联且某一领域 信息较少无法构建概率密度函数的问题。 本文所提方 法不需要大量源域数据的支持,仅是继承历史知识(源 域中心点),且允许当前领域信息较少,不但能够根据 历史知识进行当前领域的信息补偿,又能对源域数据 进行隐私保护,这些特性是传统概率密度估计方法所 不具备的。 通过合成数据的仿真实验表明本文方法较 之于传统方法具有更好的适应性。 参考文献: [1]VAPNIK V N. Statistical learning theory [M]. New York: John Wiley and Sons, 1998: 35⁃41. [2]吉根林, 姚瑶. 一种分布式隐私保护的密度聚类算法 [J].智能系统学报, 2009, 4(2):137⁃141. JI Genlin, YAO Yao. Density⁃based privacy preserving dis⁃ tributed clustering algorithm[ J]. CAAI Transactions on In⁃ telligent Systems, 2009, 4(2):137⁃141. [3]PARZEN E. On estimation of a probability density function and mode[J]. The Annals of Mathematical Statistics, 1962, 33(3): 1065⁃1076. [4] GIROLAMI M, HE C. Probability density estimation from optimally condensed data samples[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25 (10): 1253⁃1264. [5]DENG Z H, CHUNG F L, WANG S T. FRSDE: Fast re⁃ duced set density estimator using minimal enclosing ball ap⁃ proximation[J]. Pattern Recognition, 2008, 41( 4):1363⁃ 1372. [6]TSANG I W, KWOK J T, ZURADA J M. Generalized core vector machines [ J ]. IEEE Transactions on Neural Net⁃ works, 2006, 17(5): 1126⁃1140. [7]TSANG I W, KWOK J T, CHEUNG P M. Core vector ma⁃ chines: fast SVM training on very large data sets[ J]. Jour⁃ nal of Machine Learning Research, 2005(6): 363⁃392. [8] CHU C S, TSANG I W, KWOK J K. Scaling up support vector data description by using core⁃sets[C] / / IEEE Inter⁃ national Joint Conference on Neural Networks. Budapest, Hungary: 2004: 425⁃430. [9]许敏,王士同. 基于最小包含球的大数据集域自适应快速算 法[J]. 模式识别与人工智能, 2013, 26(2): 159⁃168. XU Min, WANG Shitong. A fast learning algorithm based on minimum enclosing ball for large domain adaptation[J]. Pat⁃ tern Recognition and Artificial Intelligence, 2013, 26( 2): 159⁃168. 作者简介: 许敏:女,1980 年生,讲师,博士,主 要研究方向为模式识别、人工智能。 ·226· 智 能 系 统 学 报 第 10 卷
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有