正在加载图片...
进展 来介绍哈希学习的最新进展 哈希学习跟传统度量学习的一个很本质的区别 根据学习模型(一般指度量学习阶段的模型)是 是需要量化成二进制码.现有的哈希学习方法大多 否利用样本的监督信息(例如类别标记等),现有的哈 采用很简单的量化策略,即通过某个阈值函数将实 希学习模型可以分为非监督模型18-20、半监督模 数转换成二进制位.最近出现一些专门研究量化策 型7,36,47列和监督模型26,31.4以.非监督模型又可以进一 略的工作29,9,5),并且发现量化策略也会影响哈希学 步细分为基于图的模型和不基于图的模型8,20, 习方法的性能,至少跟第一步的度量学习阶段同等 监督模型又可以进一步细分为监督信息为类别标记 重要.我们在文献29,39]中,采用对度量学习阶段得 的模型26,42和监督信息为三元组或者排序信息的模 到的每一个实数维进行多位编码的量化策略,取得 型别.实际上,这每一个细分的类对应于机器学习 了比传统的单位编码策略更好的效果.一般来说,度 中一个比较大的子方向,例如基于图的模型.由此可 量学习的结果中,各维的方差(或信息量)通常各不相 以看出,现有的哈希学习模型虽然总数比较多,但是 等8,20而现有的很多方法采用“度量学习+相同位 在各个子方向上还仅仅只是进行了初步的尝试.此 数编码”的策略4,1),导致的结果是随着哈希码长度 外,度量学习是机器学习领域的研究热点之一,而度 的增大,精确度反而下降.一种更合理的量化策略 量学习方面的工作刚好可以用来实现哈希学习的第 是,采用更多的位数编码信息量更大的维.目前,有 一步,因此目前很多哈希学习模型(包括非监督、半 部分工作在这方面进行了尝试,取得了不错的结 监督和监督)只是直接利用或者简单改进已有度量学 果53 习模型,然后采用上述的符号函数进行量化,得到哈 综上所述,目前哈希学习的研究现状是:已被广 希编码.经过一些摸索20,22,2,我们发现度量学习得 泛关注并在某些应用领域取得了初步成效,但研究 到的结果通常是在模型目标函数的限制下使得信息 才刚刚开始,有的学习场景和应用领域甚至还没有 损失最小,因此得到的总是最优的结果;而在将度量 研究者进行哈希学习的尝试;问题本质和模型构建 学习应用到哈希学习中时,除了第一步的度量学习 有待于进一步深入思考:模型参数的优化方法有待 可能造成信息损失外,第二步量化过程的信息损失 于进一步探索:量化阶段的重要性已经引起注意,但 对性能的影响也非常大,有时候甚至超过第一步造 量化策略期待进一步突破。 成的信息损失,因此,第一步度量学习得到的最优结 果并不能保证最终量化后的二进制编码为最优.目 2发展趋势 前,很多哈希学习方法没有将量化过程中的信息损 目前大部分哈希学习研究的思路为:针对某个 失考虑到模型构建中去 机器学习场景(比如排序学习场景或者应用场景, 现有的参数优化方法大概可以分为两类.第一 只要以前没有人尝试过用哈希学习的思想来加速学 类是采用与传统度量学习的优化方法类似的策略, 习过程,就可以考虑把哈希学习用进去,然后在一个 对所有位对应的(实数)参数一次性全部优化4,1.这 传统模型(这个传统模型不用哈希)解决不了的数据 种策略带来的一个不利后果是没办法弥补量化过程 或者应用规模上进行实验验证.从解决实际问题的 带来的信息损失,有可能导致的结果是随着哈希码 角度来讲,这些工作虽然初步,但还是很有研究价值 长度的增大,精确度反而下降.第二类是避免一次性 的,毕竟为大数据中传统模型不能解决的问题提供 全部优化所有位对应的(实数)参数,而采用按位 了一种可行的解决思路.但从哈希学习本身的研究 (bitwise)优化策略7.22,3,让优化过程能够自动地弥 来讲,目前大部分工作还没有从哈希学习问题的本 补量化过程中损失的信息.实验结果表明,即使学习 质上进行考虑.我们认为以后的工作可以从理论分 模型的目标函数相同,采用按位优化策略能取得比 析、模型构建、参数优化、量化策略等几个方面进行 一次性全部优化所有参数的策略更好的性能.但按 进一步探索. 位优化策略对模型目标函数有一定的要求和限制, 目前哈希学习理论分析方面的工作还很少.用 比如目标函数可以写成残差的形式2.目前,大部 哈希码表示数据后,数据相当于进行了有损压缩.在 分哈希学习方法还是采取一次性全部优化所有参数 后续的处理中,比如检索或者挖掘过程中,基于哈希 的策略。 码表示的数据得到的模型能在多大程度上逼近从原 487487 进 展 来介绍哈希学习的最新进展. 根据学习模型(一般指度量学习阶段的模型)是 否利用样本的监督信息(例如类别标记等), 现有的哈 希学习模型可以分为非监督模型[18~20]、半监督模 型[17,36,47]和监督模型[26,31,42]. 非监督模型又可以进一 步细分为基于图的模型[19]和不基于图的模型[18,20], 监督模型又可以进一步细分为监督信息为类别标记 的模型[26,42]和监督信息为三元组或者排序信息的模 型[31]. 实际上, 这每一个细分的类对应于机器学习 中一个比较大的子方向, 例如基于图的模型. 由此可 以看出, 现有的哈希学习模型虽然总数比较多, 但是 在各个子方向上还仅仅只是进行了初步的尝试. 此 外, 度量学习是机器学习领域的研究热点之一, 而度 量学习方面的工作刚好可以用来实现哈希学习的第 一步, 因此目前很多哈希学习模型(包括非监督、半 监督和监督)只是直接利用或者简单改进已有度量学 习模型, 然后采用上述的符号函数进行量化, 得到哈 希编码. 经过一些摸索[20,22,29], 我们发现度量学习得 到的结果通常是在模型目标函数的限制下使得信息 损失最小, 因此得到的总是最优的结果; 而在将度量 学习应用到哈希学习中时, 除了第一步的度量学习 可能造成信息损失外, 第二步量化过程的信息损失 对性能的影响也非常大, 有时候甚至超过第一步造 成的信息损失, 因此, 第一步度量学习得到的最优结 果并不能保证最终量化后的二进制编码为最优. 目 前, 很多哈希学习方法没有将量化过程中的信息损 失考虑到模型构建中去. 现有的参数优化方法大概可以分为两类. 第一 类是采用与传统度量学习的优化方法类似的策略, 对所有位对应的(实数)参数一次性全部优化[14,19]. 这 种策略带来的一个不利后果是没办法弥补量化过程 带来的信息损失, 有可能导致的结果是随着哈希码 长度的增大, 精确度反而下降. 第二类是避免一次性 全部优化所有位对应的(实数)参数, 而采用按位 (bitwise)优化策略[17,22,36], 让优化过程能够自动地弥 补量化过程中损失的信息. 实验结果表明, 即使学习 模型的目标函数相同, 采用按位优化策略能取得比 一次性全部优化所有参数的策略更好的性能. 但按 位优化策略对模型目标函数有一定的要求和限制, 比如目标函数可以写成残差的形式[22]. 目前, 大部 分哈希学习方法还是采取一次性全部优化所有参数 的策略. 哈希学习跟传统度量学习的一个很本质的区别 是需要量化成二进制码. 现有的哈希学习方法大多 采用很简单的量化策略, 即通过某个阈值函数将实 数转换成二进制位. 最近出现一些专门研究量化策 略的工作[29,39,53], 并且发现量化策略也会影响哈希学 习方法的性能, 至少跟第一步的度量学习阶段同等 重要. 我们在文献[29,39]中, 采用对度量学习阶段得 到的每一个实数维进行多位编码的量化策略, 取得 了比传统的单位编码策略更好的效果. 一般来说, 度 量学习的结果中, 各维的方差(或信息量)通常各不相 等[18,20]. 而现有的很多方法采用“度量学习+相同位 数编码”的策略[14,19], 导致的结果是随着哈希码长度 的增大, 精确度反而下降. 一种更合理的量化策略 是, 采用更多的位数编码信息量更大的维. 目前, 有 部分工作在这方面进行了尝试, 取得了不错的结 果[53]. 综上所述, 目前哈希学习的研究现状是: 已被广 泛关注并在某些应用领域取得了初步成效, 但研究 才刚刚开始, 有的学习场景和应用领域甚至还没有 研究者进行哈希学习的尝试; 问题本质和模型构建 有待于进一步深入思考; 模型参数的优化方法有待 于进一步探索; 量化阶段的重要性已经引起注意, 但 量化策略期待进一步突破. 2 发展趋势 目前大部分哈希学习研究的思路为: 针对某个 机器学习场景(比如排序学习场景[31])或者应用场景, 只要以前没有人尝试过用哈希学习的思想来加速学 习过程, 就可以考虑把哈希学习用进去, 然后在一个 传统模型(这个传统模型不用哈希)解决不了的数据 或者应用规模上进行实验验证. 从解决实际问题的 角度来讲, 这些工作虽然初步, 但还是很有研究价值 的, 毕竟为大数据中传统模型不能解决的问题提供 了一种可行的解决思路. 但从哈希学习本身的研究 来讲, 目前大部分工作还没有从哈希学习问题的本 质上进行考虑. 我们认为以后的工作可以从理论分 析、模型构建、参数优化、量化策略等几个方面进行 进一步探索. 目前哈希学习理论分析方面的工作还很少. 用 哈希码表示数据后, 数据相当于进行了有损压缩. 在 后续的处理中, 比如检索或者挖掘过程中, 基于哈希 码表示的数据得到的模型能在多大程度上逼近从原
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有