（∑ｉＷｉｊ－Ｗ）ｐ，ｋ关于Ｄ的Ｇｒａｍ矩阵记为ｋ

正在加载图片...

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·359· (∑，W,-W)',k关于D的Gam矩阵记为kn, 算M和k。的时间复杂度为O(N2)。 W,=RBF(x,x),x:,x∈D。则可以通过式(4)的一个重要问题是LRU和FIFO中对输入样本的方式对核函数k进行修改，使其等距线沿D进行分时间属性记录，对LRU还有聚类意义下最近被使用布：样本的判断。本文首先用聚类的方式产生数据集D kp(a,b)=k(a,b)-ki (I+MKp)Mk (4) 的r个簇，应用在线聚类的方式更新这r个簇，替换其中a和b为任意2个训练样本，M是一个在原点样本时每次从最久没有被更新过的簇中随机选取一对称的距离矩阵，按文献[12]的方法用图拉普拉斯个样本进行替换，使用一个长度为r优先队列记录矩阵计算得到。整个过程中并没有考虑数据的标每个簇最近被访问的情况。对于FIFO策略，不需签，仅是通过考虑数据的密度分布，对原有核函数的要优先队列，每次把新加入的样本放在最下行和最值进行修改。右列，然后去掉第1行第1列即可。算法2和算法3 式(4)的计算需要离线批量进行，且计算的时分别描述了静态大数据集和流数据集2种情况下的间复杂度较高，具体而言，式(4)在修改数据样本α 数据依赖核的在线学习过程。和b的核函数值时要计算k。和k。,即a和b与当前算法2使用一个优先队列记录样本簇最近被访可见数据集的核函数k值。当可见数据不变时，M 问的情况，认为一个簇中的样本被访问过一次，则该和k。这两项只需计算一次，但对数据流而言，M和簇最近被访问过，核矩阵的更新从第7至10行，需 k。是在不断变化的。但可以肯定的一点是，对于大要对所有样本扫描一次，时间复杂度是0(W2),优规模数据集和数据流，直接计算整个数据集的M和先队列的操作需要O(),其中r为簇的个数，判断 k。在计算资源上并不现实。 x。属于哪个簇的粗糙算法需要O()时间，整体的因此考虑M和k。的在线更新策略，采用限制时间复杂度为0(N2)。 M和k。的规模为N×N,则必须有D中的数据样本算法2大数据集的数据依赖核在线学习替换策略。借鉴操作系统中内存页面的调度算法，输入：对静态的大数据集应用类似近期最少使用(least re- 数据样本集：D={x1,x2,…,xx} cently used,LRU)的样本更新策略)，而对于高速当前输入样本：x。数据流应用先进先出(first in first out,FIFO)更新策核函数Gram矩阵和距离矩阵：K、M 略[3]，其中LRU是替换最近一段时间没有被使用样本空间聚类分布：Lc 过的样本，由于样本各不相同，本文采用聚类意义下记录簇最近访问的优先队列：Q 的样本使用统计。这两种策略的合理性基于以下分输出：更新后的核矩阵：K 析。对于静态大数据集，虽然数据是顺序地输入到 1)r=clus(Lc,xo）/查找样本xo的簇号学习器中，但其数据到达顺序和时序不相关，因此不 2)根据r更新优先队列Q 能使用与时间密切相关的FIFO策略，而采用LRU 3)把x。加到簇r中策略较为合理：对于数据流，其数据生成规律有可能 4)在优先队列Q的队尾所示的簇中随机去掉随时间变化而变化，因此替换存在时间最长样本的一个样本 FIFO策略是合理的。同时，数据依赖核是通过对数 5)初始化k。据的分布估计对核函数进行修改，计算这种分布需 6)令k1=(k(x0,x1),…,k(x0,xx)) 要对一定规模的数据点进行分析，因此维持一个工 7)forj=1,…,Ndo 作集M是必须的，它可被看作一个缓存，反映近一 8)k2=K(G,·) 段时间的数据分布规律。这种限制工作集大小的更 9)kko=k:-kI (I+MK)-Mk, 新策略有一定的局部性，但在有限的计算和存储资 10)end for 源下是折衷的策略。 11)用k,更新矩阵K中关于x的一行和一列算法维持一个不考虑标签的样本集D并进行 12)return K 在线更新。k。和k6的计算步聚是先查表k。,若不命算法3流数据集的数据依赖核在线学习中再计算，时间复杂度为O(N)。对于M和k。,替输入：换样本之后需要重新计算一行，然后更新一行和一数据样本集D={x1,xw 列，因此其时间复杂度也为O(N)。算法初始时计当前输入样本：xo（∑ｉＷｉｊ－Ｗ）ｐ，ｋ关于Ｄ的Ｇｒａｍ矩阵记为ｋＤ，Ｗｉｊ＝ＲＢＦ（ｘｉ，ｘｊ），ｘｉ，ｘｊ ∈ Ｄ。则可以通过式（４）的方式对核函数ｋ进行修改，使其等距线沿Ｄ进行分布：ｋＤ（ａ，ｂ）＝ｋ（ａ，ｂ）－ｋＴａ（Ｉ＋ＭＫＤ）－１Ｍｋｂ（４）其中ａ和ｂ为任意２个训练样本， Μ 是一个在原点对称的距离矩阵，按文献［１２］的方法用图拉普拉斯矩阵计算得到。整个过程中并没有考虑数据的标签，仅是通过考虑数据的密度分布，对原有核函数的值进行修改。式（４）的计算需要离线批量进行，且计算的时间复杂度较高，具体而言，式（４）在修改数据样本ａ和ｂ的核函数值时要计算ｋａ和ｋｂ，即ａ和ｂ与当前可见数据集的核函数ｋ值。当可见数据不变时，Ｍ和ｋＤ这两项只需计算一次，但对数据流而言，Ｍ和ｋＤ是在不断变化的。但可以肯定的一点是，对于大规模数据集和数据流，直接计算整个数据集的Ｍ和ｋＤ在计算资源上并不现实。因此考虑Ｍ和ｋＤ的在线更新策略，采用限制Ｍ和ｋＤ的规模为Ｎ × Ｎ，则必须有Ｄ中的数据样本替换策略。借鉴操作系统中内存页面的调度算法，对静态的大数据集应用类似近期最少使用（ｌｅａｓｔｒｅ⁃ ｃｅｎｔｌｙｕｓｅｄ，ＬＲＵ）的样本更新策略［１３］，而对于高速数据流应用先进先出（ｆｉｒｓｔｉｎｆｉｒｓｔｏｕｔ，ＦＩＦＯ）更新策略［１３］，其中ＬＲＵ是替换最近一段时间没有被使用过的样本，由于样本各不相同，本文采用聚类意义下的样本使用统计。这两种策略的合理性基于以下分析。对于静态大数据集，虽然数据是顺序地输入到学习器中，但其数据到达顺序和时序不相关，因此不能使用与时间密切相关的ＦＩＦＯ策略，而采用ＬＲＵ策略较为合理；对于数据流，其数据生成规律有可能随时间变化而变化，因此替换存在时间最长样本的ＦＩＦＯ策略是合理的。同时，数据依赖核是通过对数据的分布估计对核函数进行修改，计算这种分布需要对一定规模的数据点进行分析，因此维持一个工作集Ｍ是必须的，它可被看作一个缓存，反映近一段时间的数据分布规律。这种限制工作集大小的更新策略有一定的局部性，但在有限的计算和存储资源下是折衷的策略。算法维持一个不考虑标签的样本集Ｄ并进行在线更新。ｋａ和ｋｂ的计算步聚是先查表ｋＤ，若不命中再计算，时间复杂度为Ｏ（Ｎ）。对于Ｍ和ｋＤ，替换样本之后需要重新计算一行，然后更新一行和一列，因此其时间复杂度也为Ｏ（Ｎ）。算法初始时计算Ｍ和ｋＤ的时间复杂度为Ｏ（Ｎ２）。一个重要问题是ＬＲＵ和ＦＩＦＯ中对输入样本的时间属性记录，对ＬＲＵ还有聚类意义下最近被使用样本的判断。本文首先用聚类的方式产生数据集Ｄ的ｒ个簇，应用在线聚类的方式更新这ｒ个簇，替换样本时每次从最久没有被更新过的簇中随机选取一个样本进行替换，使用一个长度为ｒ优先队列记录每个簇最近被访问的情况。对于ＦＩＦＯ策略，不需要优先队列，每次把新加入的样本放在最下行和最右列，然后去掉第１行第１列即可。算法２和算法３分别描述了静态大数据集和流数据集２种情况下的数据依赖核的在线学习过程。算法２使用一个优先队列记录样本簇最近被访问的情况，认为一个簇中的样本被访问过一次，则该簇最近被访问过，核矩阵的更新从第７至１０行，需要对所有样本扫描一次，时间复杂度是Ｏ（Ｎ２），优先队列的操作需要Ｏ（ｒ），其中ｒ为簇的个数，判断ｘ０属于哪个簇的粗糙算法需要Ｏ（ｒ）时间，整体的时间复杂度为Ｏ（Ｎ２）。算法２大数据集的数据依赖核在线学习输入：数据样本集：Ｄ＝｛ｘ１，ｘ２，…，ｘＮ｝当前输入样本：ｘ０核函数Ｇｒａｍ矩阵和距离矩阵：Ｋ、Μ 样本空间聚类分布：ＬＣ记录簇最近访问的优先队列：Ｑ输出：更新后的核矩阵：Ｋ１）ｒ＝ｃｌｕｓ（ＬＣ，ｘ０）／／查找样本ｘ０的簇号２）根据ｒ更新优先队列Ｑ３）把ｘ０加到簇ｒ中４）在优先队列Ｑ的队尾所示的簇中随机去掉一个样本５）初始化ｋｘ０６）令ｋ１＝（ｋ（ｘ０，ｘ１），…，ｋ（ｘ０，ｘＮ））７）ｆｏｒｊ＝１，…，Ｎｄｏ８）ｋ２＝Ｋ（ｊ，·）９）ｋｋ０＝ｋ１－ｋＴ１（Ｉ＋ ΜＫ）－１Μｋ２１０）ｅｎｄｆｏｒ１１）用ｋｘ０更新矩阵Ｋ中关于ｘ０的一行和一列１２）ｒｅｔｕｒｎＫ算法３流数据集的数据依赖核在线学习输入：数据样本集Ｄ＝｛ｘ１，…ｘＮ｝当前输入样本：ｘ０第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３５９·

<<向上翻页向下翻页>>

点击下载：机器学习：面向大数据流的半监督在线多核学习算法