正在加载图片...
林学通瓶2015年2月第60卷第5-6期 始数据得到的模型,即精确度如何,目前还没有相关 可行.如何保证参数优化算法能快速地完成,也是有 的理论分析.另外,针对一个具体问题或应用,到底 待解决的关键问题之一 需要多少位编码才能保证结果达到一定的精确度, 虽然最近出现的量化策略29,39,5已经取得了比 目前都是根据在验证集上的实验结果来进行选择, 传统量化策略更好的性能,但还没有很好地跟保 是否存在一些理论上的指导也非常值得研究 相似性或者监督信息结合起来.因此,研究更优的量 针对哈希学习的量化过程会存在信息损失这一 化策略,以更好地保持原始空间的相似性或者跟监 本质特征,更好的策略是在度量学习的模型构建过 督信息尽可能保持一致,也是值得进一步探索的 程中将量化过程中可能的信息损失考虑进去.但如 方向 果把量化过程中可能的信息损失考虑到模型的构建 过程中,量化结果的离散性将使得模型构建变得异 3总结与展望 常复杂.因此,如何构建考虑到量化过程信息损失的 本文对大数据哈希学习的研究进展和发展趋势 有效哈希学习模型是哈希学习研究需要解决的又一 进行了介绍.可以看出,哈希学习虽然已被广泛关注 重要问题. 并在某些应用领域取得了初步成效,但研究才刚刚 在参数优化过程中,虽然按位优化策略能自动 开始,大部分学习场景和应用领域到目前为止还只出 地弥补量化过程中损失的信息,但目前大部分模型 现很少的哈希学习方法,有的场景和应用甚至还没 的目标函数并不适合于这种优化方式.为其他模型 有研究者进行哈希学习的尝试.例如,推荐系统是个 设计能弥补量化过程信息损失的优化策略,还需要 很大的应用方向,但到目前为止这方面采用哈希学 进行进一步的研究.另外,目前的监督模型中26,4, 习的工作还不多4).因此,怎样将哈希学习的思想和 对监督信息的利用大多通过构建样本对之间的关系 方法拓展到新的学习场景和应用领域,用来解决传 来实现.例如,如果样本和j属于同一类,则Y(i)=1, 统方法在遇到大数据时不能解决的问题,将是非常 否则Y(i,)=0.然后再基于Y矩阵来建模.这种监督信 有意义的工作.特别值得一提的是,大数据学习中的 息利用方式的一个后果是:存储和计算开销都至少 另一重要研究方向是基于多机集群的分布式机器学 是训练样本数的平方级.哈希学习研究近几年之所 习,而很多分布式机器学习的瓶颈在于节点间的 以这么热,正是因为它能够被用来处理大数据.当存 通信开销.因此,将哈希学习引入到分布式机器学习 在海量的训练数据,尤其是海量有监督信息的数据 算法,并验证哈希学习在减小通信开销方面的有效 时,模型的参数训练和优化过程非常慢或者甚至不 性,也是非常有意义的研究方向 参考文献 1 Mayer-Schonberger V,Cukier K.Big Data:A Revolution That Will Transform How We Live.Work,and Think.Boston:Eamon Do- lan/Houghton Mifflin Harcourt,2013 2TuZP.The Big Data Revolution(in Chinese).Guilin:Guangxi Normal University Press,20l3[涂子沛.大数据.桂林:广西师范大学 出版社,2013] 3 Hey T.Tansley S,Tolle K.The Fourth Paradigm:Data-Intensive Scientific Discovery.Redmond:Microsoft Research,2009 4 Bryant R E.Data-intensive scalable computing for scientific applications.Comput Sci Engin,2011.13:25-33 5 Zhou Z H.Machine learning and data mining(in Chinese).Commun Chin Comput Fed,2007,3:35-44[周志华.机器学习与数据挖掘 中国计算机学会通讯,2007,3:35-44] 6 Zhou Z H,Chawla N V,Jin Y,et al.Big data opportunities and challenges:Discussions from data analytics perspectives.IEEE Comput Intell Mag,2014,9:62-74 7 Jordan M.Message from the president:The era of big data.ISBA Bull,2011,18:1-3 8 Kleiner A,Talwalkar A,Sarkar P,et al.The big data bootstrap.In:Proceedings of the 29th International Conference on Machine Learning (ICML),Edinburgh,2012,1759-1766 9 Shalev-Shwartz S,Zhang T.Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization.In:Proceedings of the 31st International Conference on Machine Learning (ICML),Beijing,2014,64-72 4882015 年 2 月 第 60 卷 第 5-6 期 488 始数据得到的模型, 即精确度如何, 目前还没有相关 的理论分析. 另外, 针对一个具体问题或应用, 到底 需要多少位编码才能保证结果达到一定的精确度, 目前都是根据在验证集上的实验结果来进行选择, 是否存在一些理论上的指导也非常值得研究. 针对哈希学习的量化过程会存在信息损失这一 本质特征, 更好的策略是在度量学习的模型构建过 程中将量化过程中可能的信息损失考虑进去. 但如 果把量化过程中可能的信息损失考虑到模型的构建 过程中, 量化结果的离散性将使得模型构建变得异 常复杂. 因此, 如何构建考虑到量化过程信息损失的 有效哈希学习模型是哈希学习研究需要解决的又一 重要问题. 在参数优化过程中, 虽然按位优化策略能自动 地弥补量化过程中损失的信息, 但目前大部分模型 的目标函数并不适合于这种优化方式. 为其他模型 设计能弥补量化过程信息损失的优化策略, 还需要 进行进一步的研究. 另外, 目前的监督模型中[26,42], 对监督信息的利用大多通过构建样本对之间的关系 来实现. 例如, 如果样本i和j属于同一类, 则Y(i, j)=1, 否则Y(i, j)=0. 然后再基于Y矩阵来建模. 这种监督信 息利用方式的一个后果是: 存储和计算开销都至少 是训练样本数的平方级. 哈希学习研究近几年之所 以这么热, 正是因为它能够被用来处理大数据. 当存 在海量的训练数据, 尤其是海量有监督信息的数据 时, 模型的参数训练和优化过程非常慢或者甚至不 可行. 如何保证参数优化算法能快速地完成, 也是有 待解决的关键问题之一. 虽然最近出现的量化策略[29,39,53]已经取得了比 传统量化策略更好的性能, 但还没有很好地跟保 相似性或者监督信息结合起来. 因此, 研究更优的量 化策略, 以更好地保持原始空间的相似性或者跟监 督信息尽可能保持一致, 也是值得进一步探索的 方向. 3 总结与展望 本文对大数据哈希学习的研究进展和发展趋势 进行了介绍. 可以看出,哈希学习虽然已被广泛关注 并在某些应用领域取得了初步成效, 但研究才刚刚 开始,大部分学习场景和应用领域到目前为止还只出 现很少的哈希学习方法, 有的场景和应用甚至还没 有研究者进行哈希学习的尝试. 例如, 推荐系统是个 很大的应用方向, 但到目前为止这方面采用哈希学 习的工作还不多[48]. 因此,怎样将哈希学习的思想和 方法拓展到新的学习场景和应用领域, 用来解决传 统方法在遇到大数据时不能解决的问题, 将是非常 有意义的工作. 特别值得一提的是, 大数据学习中的 另一重要研究方向是基于多机集群的分布式机器学 习[10], 而很多分布式机器学习的瓶颈在于节点间的 通信开销. 因此, 将哈希学习引入到分布式机器学习 算法, 并验证哈希学习在减小通信开销方面的有效 性, 也是非常有意义的研究方向. 参考文献 1 Mayer-Schönberger V, Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Do￾lan/Houghton Mifflin Harcourt, 2013 2 Tu Z P. The Big Data Revolution (in Chinese). Guilin: Guangxi Normal University Press, 2013 [涂子沛. 大数据. 桂林: 广西师范大学 出版社, 2013] 3 Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009 4 Bryant R E. Data-intensive scalable computing for scientific applications. Comput Sci Engin, 2011, 13: 25–33 5 Zhou Z H. Machine learning and data mining (in Chinese). Commun Chin Comput Fed, 2007, 3: 35–44 [周志华. 机器学习与数据挖掘. 中国计算机学会通讯, 2007, 3: 35–44] 6 Zhou Z H, Chawla N V, Jin Y, et al. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Comput Intell Mag, 2014, 9: 62–74 7 Jordan M. Message from the president: The era of big data. ISBA Bull, 2011, 18: 1–3 8 Kleiner A, Talwalkar A, Sarkar P, et al. The big data bootstrap. In: Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, 2012, 1759–1766 9 Shalev-Shwartz S, Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. In: Proceedings of the 31st International Conference on Machine Learning (ICML), Beijing, 2014, 64–72
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有