第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201709029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180416.131l.006.html 一种加入类间因素的曲线聚类算法 许腾腾,王瑞,黄恒君 (兰州财经大学统计学院.甘肃兰州730020) 摘要:针对目前的曲线聚类算法基于类内差异设计,造成不同类之间的曲线区分度不高的问题。在曲线拟 合、曲线距离界定的基础上,构造新的目标函数,提出同时考虑类内和类间差异的曲线聚类算法。模拟结果显 示,该曲线聚类能够提高聚类精度;针对NO2污染物小时浓度的实例分析表明,该曲线聚类算法具有更好的类 间区分度。 关键词:函数型数据:类间差异;曲线聚类:B-样条:距离度量 中图分类号:TP181 文献标志码:A文章编号:1673-4785(2019)02-0362-07 中文引用格式:许腾腾,王瑞,黄恒君.一种加入类间因素的曲线聚类算法智能系统学报,2019,14(2):362-368. 英文引用格式:XU Tengteng,WANG Rui,HUANG Hengjun..Curve clustering algorithms by adding the differences among clusters[J].CAAI transactions on intelligent systems,2019,14(2):362-368. Curve clustering algorithms by adding the differences among clusters XU Tengteng,WANG Rui,HUANG Hengjun (School of Statistics,Lanzhou University of Finance and Economics,Lanzhou 730020,China) Abstract:With the improvement of accuracy and frequency of data collection,functional data has appeared.Curves' clustering is a fundamental exploratory task in functional data analysis,and To sovave currently curves clustering al- gorithms available are based on the differences within each cluster,which has resulted in a low distinction among differ- ent curves.Therefore,on the base of curve fitting and curve distance,and with constructed objective function,curves clustering algorithms will be put forward with the consideration of cluster differences.Simulated results show that the curve cluster improves clustering accuracy.The example analysis of hourly NO2 concentration(ug/m)indicates that this kind of curves clustering algorithms has a better distinction among different clusters. Keywords:functional data:differences among clusters;curve clustering:B-spline:distance metric 随着信息技术的不断发展,数据获取越来越 一般而言,函数型数据的曲线形式无法直接 便捷,数据采集的密集化程度也越来越高。随之 获取,通常仅能够观测到其离散样本点,并针对 出现了一种具有函数特征的数据类型。如心理学 离散数据进行传统多元统计分析。当然,这种做 研究中的脑电信号数据、生物技术中的基因微序 法由于未能考虑到数据的函数特性(如连续、可 导等),同时需要处理高维问题,往往不能取得很 列数据、化学计量中的光谱分析数据、经济研究 好的分析效果四。为此,针对数据的曲线特征,人 中的股票分时成交价数据、环境监测中的污染物 们提出了各种分析方法,包括函数型主成分分 浓度数据等,均随着时间变化而表现出明显的曲 析、函数型线性模型、函数型聚类分析等,将有限 线特征。当前文献中将这种数据类型称为函数型 维的多元分析推广到无限维的函数型数据上来。 数据(functional data)"。 聚类分析是数据探索、数据压缩和展现的重 收稿日期:2017-09-15.网络出版日期:2018-04-18 要工具,本文讨论函数型数据的聚类算法。目 基金项目:国家社科基金青年项目(14CTJ009,15CT004):全国 统计科学研究重点项目(2017LZ43). 前,函数型数据聚类分析方法大致分为两类: 通信作者:黄恒君.E-mail:noahwong@163.com, 是原始数据法,该类方法直接针对离散样本点进
DOI: 10.11992/tis.201709029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180416.1311.006.html 一种加入类间因素的曲线聚类算法 许腾腾,王瑞,黄恒君 (兰州财经大学 统计学院,甘肃 兰州 730020) 摘 要:针对目前的曲线聚类算法基于类内差异设计,造成不同类之间的曲线区分度不高的问题。在曲线拟 合、曲线距离界定的基础上,构造新的目标函数,提出同时考虑类内和类间差异的曲线聚类算法。模拟结果显 示,该曲线聚类能够提高聚类精度;针对 NO2 污染物小时浓度的实例分析表明,该曲线聚类算法具有更好的类 间区分度。 关键词:函数型数据;类间差异;曲线聚类;B-样条;距离度量 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)02−0362−07 中文引用格式:许腾腾, 王瑞, 黄恒君. 一种加入类间因素的曲线聚类算法 [J]. 智能系统学报, 2019, 14(2): 362–368. 英文引用格式:XU Tengteng, WANG Rui, HUANG Hengjun. Curve clustering algorithms by adding the differences among clusters[J]. CAAI transactions on intelligent systems, 2019, 14(2): 362–368. Curve clustering algorithms by adding the differences among clusters XU Tengteng,WANG Rui,HUANG Hengjun (School of Statistics, Lanzhou University of Finance and Economics, Lanzhou 730020, China) Abstract: With the improvement of accuracy and frequency of data collection, functional data has appeared. Curves' clustering is a fundamental exploratory task in functional data analysis, and To sovave currently curves clustering algorithms available are based on the differences within each cluster, which has resulted in a low distinction among different curves. Therefore, on the base of curve fitting and curve distance, and with constructed objective function, curves clustering algorithms will be put forward with the consideration of cluster differences. Simulated results show that the curve cluster improves clustering accuracy. The example analysis of hourly NO2 concentration (μg/m3 ) indicates that this kind of curves clustering algorithms has a better distinction among different clusters. Keywords: functional data; differences among clusters; curve clustering; B-spline; distance metric 随着信息技术的不断发展,数据获取越来越 便捷,数据采集的密集化程度也越来越高。随之 出现了一种具有函数特征的数据类型。如心理学 研究中的脑电信号数据、生物技术中的基因微序 列数据、化学计量中的光谱分析数据、经济研究 中的股票分时成交价数据、环境监测中的污染物 浓度数据等,均随着时间变化而表现出明显的曲 线特征。当前文献中将这种数据类型称为函数型 数据 (functional data)[1]。 一般而言,函数型数据的曲线形式无法直接 获取,通常仅能够观测到其离散样本点,并针对 离散数据进行传统多元统计分析。当然,这种做 法由于未能考虑到数据的函数特性 (如连续、可 导等),同时需要处理高维问题,往往不能取得很 好的分析效果[2]。为此,针对数据的曲线特征,人 们提出了各种分析方法[3-4] ,包括函数型主成分分 析、函数型线性模型、函数型聚类分析等,将有限 维的多元分析推广到无限维的函数型数据上来。 聚类分析是数据探索、数据压缩和展现的重 要工具,本文讨论函数型数据的聚类算法。目 前,函数型数据聚类分析方法大致分为两类[3] :一 是原始数据法,该类方法直接针对离散样本点进 收稿日期:2017−09−15. 网络出版日期:2018−04−18. 基金项目:国家社科基金青年项目 (14CTJ009,15CTJ004);全国 统计科学研究重点项目 (2017LZ43). 通信作者:黄恒君. E-mail:noahwong@163.com. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
第2期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·363· 行聚类,属于高维数据分析方法,文献[5]对这种 方差的独立同分布随机变量。进一步假定X()可 做法进行了综述。二是投影方法,即以有限维的 由一组基底{(0,2(),表示,则有 基底函数逼近曲线,将无限维的问题转化为有限 维问题展开分析。依据对基底函数所对应的系数 (2) k=1 处理方式不同,又可分为滤波法和自适应法。滤 称这种做法为基底函数法,它是一种将离散 波法将基底函数所对应的系数设定为固定参数, 数据转化为曲线的常用平滑技术。对待估计曲 分曲线拟合和聚类分析两步展开:首先以有限维 线X,()采取截断处理.得到如式(3)的形式: 基底拟合曲线,对估计的参数执行传统聚类算 X(t)= a联p(t)=,(t) (3) 法。包括利用自组织映射(SOM)算法进行聚类 k=1 和拟合函数型数据;利用两阶段随机过程分别 从而将无限维问题转化为有限维估计方式。 完成数据降维和聚类等。根据基底函数选择利 进一步假定: 用B样条基底函数拟合数据并根据传统聚类方法分 1)对不同曲线X,()i=1,2,…,n)采用一组相同 析列,利用正交基函数进行聚类分析0等。自适 的基底表述; 应法是将基底函数所对应的系数作为随机变量处 2)基底函数设定为等距节点B-样条基底。有 理,将曲线拟合和聚类分析纳入一个目标函数, 采用类似EM的算法,同时进行优化。如利用机 x.0-oaB.v()-oB.() (4) 器学习和神经网络模型SVR分析时空数据、利 =1 用STM算法对时空数据进行聚类以及时间序 式中:L=K+M,BM()表示第k个内部节点数量为 列数据)、经维度数据等的聚类方法;基于K K的M阶B-样条基底函数。BMw(O表示M阶B-样 medoids项目聚类的协同过滤推荐算法,基于多 条基底函数。对于参数,我们利用最小二乘法 元函数型主成分分析(FPCA)方法进行的改进混 进行估计。 合模型同时进行曲线拟合与聚类分析。在随机 1.2曲线距离 过程中利用K-L散度度量,采用类似于EM算法 假定曲线X()为2空间的元素。则根据L2范 进行聚类的算法等。 数定义,有曲线X,()和X,)的距离为 尽管有众多其他的算法611,目前的函数型聚 6)=x-x (5) 类分析仅考虑了类内部的差异,而忽视了类间的 其中表示L2范数,由假定1)及式(4)知 差异性。对传统离散数据的聚类研究表明,同 X(0-X,(0=[a,-a'Bw(0 (6) 时考虑类内与类间差异有助于提升聚类效果。 结合式(6),式(⑤)可转化为 受此启发,本文提出一种加入类间因素的曲 d(i.j)=[a;-aj]K[a;-aj] (7) 线聚类算法。本文的做法属于滤波法,包括B-样 式中 条基底拟合曲线、曲线距离确定、曲线聚类目标 (B1,B1)(B1,B2)· 函数设定,以及加入类间因素的曲线聚类算法等。 (B1,BL) (B2,B)(B2,B2〉· (B2,B》 K 1加入类间因素的曲线聚类 (BL,B1〉(B,B2) …(B,B) 根据前面的描述,本文讨论的曲线聚类分析模型 其中,K为L×L实对称矩阵,K中的每一个元素 构建主要包含3个方面:1)由观测离散数据生成函 (B,B》表示L2空间的内积。但是类似于P(亿,)= 数型数据,这里采用B样条基底表述的方法:2)构 [a,-a[c:-a这种形式的距离公式并不适用于 造曲线之间的“距离”的表述,并通过用B样条基 非正交基底函数),为将曲线距离用传统距离公 底系数,将曲线距离转化为传统欧氏距离;3)以所构 式表示,对K作楚列斯基(Cholesky)分解得K=LLT, 造的距离作为亲疏程度度量,并构建同时考虑类 其中L为上三角矩阵,并令b,=La,式(7)可表 内差异和类间差异的目标函数,完成曲线聚类任务。 示为 1.1曲线生成 d(i.j)=[a;-aj]'K[a:-a]= 假定数据y=yay2…ym'6=1,2,…,m)由如 [a:-aj]'LLT [a:-a]= (8) 下模型生成: [LTa:-LTaj][LTa:-LTaj]=(b:-bi][b:-bj] y为=X()+8,j=1,2,…,m (1) 需要说明的是,式(8)完成了从曲线距离到一 式中:X)表示待估计曲线,ε表示服从零均值同 般距离的转变,构成了将曲线聚类转化为传统多
行聚类,属于高维数据分析方法,文献 [5] 对这种 做法进行了综述。二是投影方法,即以有限维的 基底函数逼近曲线,将无限维的问题转化为有限 维问题展开分析。依据对基底函数所对应的系数 处理方式不同,又可分为滤波法和自适应法。滤 波法将基底函数所对应的系数设定为固定参数, 分曲线拟合和聚类分析两步展开:首先以有限维 基底拟合曲线,对估计的参数执行传统聚类算 法。包括利用自组织映射 (SOM) 算法进行聚类 和拟合函数型数据[6] ;利用两阶段随机过程分别 完成数据降维和聚类[7] 等。根据基底函数选择利 用 B-样条基底函数拟合数据并根据传统聚类方法分 析 [8-9] ,利用正交基函数进行聚类分析[10] 等。自适 应法是将基底函数所对应的系数作为随机变量处 理,将曲线拟合和聚类分析纳入一个目标函数, 采用类似 EM 的算法,同时进行优化。如利用机 器学习和神经网络模型 SVR 分析时空数据[11] 、利 用 STM 算法对时空数据进行聚类[12] 以及时间序 列数据[13] 、经维度数据[14] 等的聚类方法;基于 Kmedoids 项目聚类的协同过滤推荐算法[15] ;基于多 元函数型主成分分析 (FPCA) 方法进行的改进混 合模型同时进行曲线拟合与聚类分析[16]。在随机 过程中利用 K-L 散度度量,采用类似于 EM 算法 进行聚类的算法[17] 等。 尽管有众多其他的算法[6, 18] ,目前的函数型聚 类分析仅考虑了类内部的差异,而忽视了类间的 差异性。对传统离散数据的聚类研究表明[19] ,同 时考虑类内与类间差异有助于提升聚类效果。 受此启发,本文提出一种加入类间因素的曲 线聚类算法。本文的做法属于滤波法,包括 B-样 条基底拟合曲线、曲线距离确定、曲线聚类目标 函数设定,以及加入类间因素的曲线聚类算法等。 1 加入类间因素的曲线聚类 根据前面的描述,本文讨论的曲线聚类分析模型 构建主要包含 3 个方面:1) 由观测离散数据生成函 数型数据,这里采用 B-样条基底表述的方法;2) 构 造曲线之间的“距离”的表述,并通过用 B-样条基 底系数,将曲线距离转化为传统欧氏距离;3) 以所构 造的距离作为亲疏程度度量,并构建同时考虑类 内差异和类间差异的目标函数,完成曲线聚类任务。 1.1 曲线生成 Yi = [ yi1 yi2 ··· yim]T 假定数据 (i = 1,2,··· ,n) 由 如 下模型生成: yi j = Xi ( ti j) +εi j, j = 1,2,··· ,m (1) 式中: Xi(t) 表示待估计曲线,ε表示服从零均值同 Xi(t) {ϕi1 (t), ϕi2 (t),···} 方差的独立同分布随机变量。进一步假定 可 由一组基底 表示,则有 Xi(t) = ∑∞ k=1 αikϕik (t) (2) Xi(t) 称这种做法为基底函数法,它是一种将离散 数据转化为曲线的常用平滑技术[3]。对待估计曲 线 采取截断处理,得到如式 (3) 的形式: Xi(t) = ∑K k=1 αikϕik (t)=αi TΦi(t) (3) 从而将无限维问题转化为有限维估计方式。 进一步假定[9] : 1) 对不同曲线 Xi(t) (i = 1,2,··· ,n) 采用一组相同 的基底表述; 2) 基底函数设定为等距节点 B-样条基底。有 Xi(t)= ∑L k=1 αikBk,M (t)=αi TBM (t) (4) L = K + M Bk,M (t) k K M BM (t) αi 式中: , 表示第 个内部节点数量为 的 阶 B-样条基底函数。 表示 M 阶 B-样 条基底函数。对于参数 ,我们利用最小二乘法 进行估计。 1.2 曲线距离 Xi(t) L 2 L 2 Xi(t) Xj(t) 假定曲线 为 空间的元素。则根据 范 数定义,有曲线 和 的距离为 d 2 (i, j) = Xi − Xj 2 (5) 其中 ∥·∥ 表示 L 2 范数,由假定 1) 及式 (4) 知 Xi(t)− Xj(t) = [ αi −αj ]T BM (t) (6) 结合式 (6),式 (5) 可转化为 d 2 (i, j) = [ αi −αj ]T K [ αi −αj ] (7) 式中 K= ⟨B1,B1⟩ ⟨B1,B2⟩ ··· ⟨B1,BL⟩ ⟨B2,B1⟩ ⟨B2,B2⟩ ··· ⟨B2,BL⟩ ··· ··· . . . ··· ⟨BL,B1⟩ ⟨BL,B2⟩ ··· ⟨BL,BL⟩ L× L K ⟨ Bi ,Bj ⟩ L 2 d 2 (i, j) = [ αi −αj ]T [ αi −αj ] K K=LLT L bi=L Tαi 其中,K 为 实对称矩阵, 中的每一个元素 表示 空间的内积。但是类似于 这种形式的距离公式并不适用于 非正交基底函数[9] ,为将曲线距离用传统距离公 式表示,对 作楚列斯基 (Cholesky) 分解得 , 其中 为上三角矩阵,并令 ,式 (7) 可表 示为 d 2 (i, j) = [ αi −αj ]T K [ αi −αj ] = [ αi −αj ]T LLT [ αi −αj ] = [ L Tαi − L Tαj ]T [ L Tαi − L Tαj ] = [ bi − bj ]T [ bi − bj ] (8) 需要说明的是,式 (8) 完成了从曲线距离到一 般距离的转变,构成了将曲线聚类转化为传统多 第 2 期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·363·
·364· 智能系统学报 第14卷 元聚类问题的基础。利用式(8),运用传统聚类算 针对2),假设b.已知,对目标函数式(11)关于 法对b进行聚类,得到P类,记为i∈G,(p∈1,2,…,P)。 b求偏导数: 由b,=L'得到B=AL,其中A=[a12…&m,J, B=[bb2…b,F。np表示第Gn类中的曲线数量, 当22a---0时,令6= 令()表示随机选取的一条曲线作为初始类中 当∑∑a(伍.-brb.-bo≠0时,目标函数 心,c,)(0表示第G,类中的类中心。则有c,)()= 式(11)吴6,求导 k=1 np-1BL-By(t)e 1.3改进的曲线聚类算法 aF(Φ,0) a[b:-b.1 [b.-b.] [b.-b]'[b.-bo] 聚类分析的目的是将同类型数据进行归类, 5 ob, 名 ab. 同时对不同类型的数据进行区分。文献[19]针对 习立 2[b:-b] 传统离散数据提出的K-means聚类扩展方法兼顾 2名“a,-b6.-b 了类内、类间差异。具体来讲,通过对数据集引 2[b.-bolIb.-b.J[b:-b.J-O 入全局中心点实现类内差异最小化的同时类中心 ([b.-bo][b.-bol) 与全局中心点距离最大化。相比于K-means算 得出 法,这种做法提高了聚类效果 2[b:-b.] 受此启发,本文将K-means聚类分析扩展到 [b.-bo][b.-bo] 函数型聚类分析上。本文的曲线聚类目标函数为 2[b.-bol[b;-b.][b:-b.] F(电,U= x0- 22 (9) ([b.-bo]"[b.-bo]) 台台“区0-o) 进一步化简得到b. 式中:Φ表示待估参数矩阵(A或B),U表示由 u构成的矩阵,其中:∈{0,1,∑W:=1,X:()表示 226.-a b= 曲线,?()表示随机选取的一条曲线作为初始 类中心,结合式(4)的曲线基底表述,得到目标 22-b 函数: 即 a.By (t)- F(Φ,U (10) bo 胶0-o训 22bs0s-0 根据前面关于曲线距离的描述将式(7)~(8) b.= (13) 代人式(10)得到 wath-bot'h 其他 F(,U=∑ [b:-b.][b;-b.] ,4k (11) 台台"[b.-b'[b,-bo 22 式中:b.=LTa,bo=LTo,a,表示第k类类中心对 在进行计算机编程时可以不断对步骤1)、2) 应的参数,α表示初始类中心曲线的参数。 进行迭代,直至找出最优U和Φ。算法流程如下: 目标函数确定后,式(11)中含有两个未知参 Input:X=(X.X2....X,k 数α及U。通过固定一项求解另一项的步骤来求 Initialize:Randomly choose an initial bo= 解式(11),即 b1,b2,…,be 1)固定=,求解函数F(在,U: Repeat 2)固定U=0,求解函数F(电,0)。 FixedΦ,use eq.(l2)to solveU 针对1),为使目标函数式(11)达到最小,当目 Fixed U,use eq.(13)to solve 标函数分子中曲线与对应类中心曲线距离小时 Until convergence. 4=1,否则为0,即 进一步,由b.=LTa.,求解出b,可得到参数a, 并根据式(4)还原出类中心曲线。 1, 了b-bb-bsD 台白b.-bJb.-bo (12) 2算法效果模拟验证与分析 0.其他 式中:D=∑2=aTb-6门且y+ 为验证本文曲线聚类算法的效果,利用模拟 台台[b.'-bJ'[b.'-bJ 数据与文献[9]中曲线聚类方法进行比较。模拟
bi P i ∈ Gp (p ∈ 1,2,··· ,P) 元聚类问题的基础。利用式 (8),运用传统聚类算 法对 进行聚类,得到 类,记为 。 bi=L Tαi B = AL A= [α1 α2 ··· αnp ] T B = [b1 b2 ··· bnp ] T np Gp X¯ (t0) X¯(Gp) (t) Gp X¯(Gp) (t) = np −11 TBL−1BM (t) 由 得到 ,其中 , 。 表示第 类中的曲线数量, 令 表示随机选取的一条曲线作为初始类中 心, 表示第 类中的类中心。则有 。 1.3 改进的曲线聚类算法 聚类分析的目的是将同类型数据进行归类, 同时对不同类型的数据进行区分。文献 [19] 针对 传统离散数据提出的 K-means 聚类扩展方法兼顾 了类内、类间差异。具体来讲,通过对数据集引 入全局中心点实现类内差异最小化的同时类中心 与全局中心点距离最大化。相比于 K-means 算 法,这种做法提高了聚类效果[19]。 受此启发,本文将 K-means 聚类分析扩展到 函数型聚类分析上。本文的曲线聚类目标函数为 F (Φ,U)= ∑n i=1 ∑K k=1 uik Xi(t)− X¯ (t) 2 X¯ (t)− X¯ (t0) 2 (9) Φ uik ∈ {0,1} ∑K K=1 uik = 1 Xi(t) X¯ (t0) 式中: 表示待估参数矩阵 (A 或 B),U 表示由 uik 构成的矩阵,其中 , , 表示 曲线, 表示随机选取的一条曲线作为初始 类中心,结合式 (4) 的曲线基底表述,得到目标 函数: F (Φ,U)= ∑n i=1 ∑K k=1 uik αi TBM (t)− X¯ (t) 2 X¯ (t)− X¯ (t0) 2 (10) 根据前面关于曲线距离的描述将式 (7)~(8) 代入式 (10) 得到 F (Φ,U)= ∑n i=1 ∑K k=1 uik [bi − b∗] T [bi − b∗] [b∗ − b0] T [b∗ − b0] (11) b∗ = L Tα∗ b0 = L Tα0 α∗ α0 式中: , , 表示第 k 类类中心对 应的参数, 表示初始类中心曲线的参数。 α U 目标函数确定后,式 (11) 中含有两个未知参 数 及 。通过固定一项求解另一项的步骤来求 解式 (11),即 Φ=Φˆ F ( Φˆ ,U ) 1) 固定 ,求解函数 ; U=Uˆ F ( Φ,Uˆ ) 2) 固定 ,求解函数 。 uik=1 针对 1),为使目标函数式 (11) 达到最小,当目 标函数分子中曲线与对应类中心曲线距离小时 ,否则为 0,即 uik= 1, ∑n i=1 ∑K k=1 [bi − b∗] T [bi − b∗] [b∗ − b0] T [b∗ − b0] ⩽ D 0,其他 (12) D = ∑n i=1 ∑K k=1 [ bi −(b∗) ′ ]T [ bi −(b∗) ′ ] [ (b∗) ′ − b0 ]T [ (b∗) ′ − b0 ] (b∗) ′ 式中: ,且 , (b∗)。 b∗ b∗ 针对 2),假设 已知,对目标函数式 (11) 关于 求偏导数: ∑n i=1 ∑K k=1 uik( [b∗ − b0] T [b∗ − b0] )2 当 = 0 时,令 b∗=b0, ∑n i=1 ∑K k=1 uik( [b∗ − b0] T [b∗ − b0] )2 当 , 0 时,目标函数 式 (11) 关于 b*,求导 ∂F ( Φ,Uˆ ) ∂b∗ = ∑n i=1 ∑K k=1 uik ∂ ( [bi − b∗] T [bi − b∗] [b∗ − b0] T [b∗ − b0] ) ∂b∗ = ∑n i=1 ∑K k=1 uik 2[bi − b∗] [b∗ − b0] T [b∗ − b0] − 2[b∗ − b0] [bi − b∗] T [bi − b∗] ( [b∗ − b0] T [b∗ − b0] )2 = 0 得出 ∑n i=1 ∑K k=1 uik 2[bi − b∗] [b∗ − b0] T [b∗ − b0] = ∑n i=1 ∑K k=1 uik 2[b∗ − b0][bi − b∗] T [bi − b∗] ( [b∗ − b0] T [b∗ − b0] )2 进一步化简得到 b∗ b∗= ∑n i=1 ∑K k=1 uik[bi − b0] T bi ∑n i=1 ∑K k=1 uik[bi −b0] T 即 b∗= b0, ∑n i=1 ∑K k=1 uik [ b∗b∗ T ( b∗b∗ T )−1 b∗ − b0 ] = 0 ∑n i=1 ∑K k=1 uik[bi − b0] T bi ∑n i=1 ∑K k=1 uik[bi − b0] T , 其他 (13) U Φ 在进行计算机编程时可以不断对步骤 1)、2) 进行迭代,直至找出最优 和 。算法流程如下: Input: X = {X1,X2,···Xn}, k b0 = b1, b2,··· , Initialize: Randomly choose an initial bk Repeat Fixed Φ , use eq. (12) to solve U Fixed U , use eq. (13) to solve Φ Until convergence. b∗ = L T 进一步,由 α∗,求解出 b∗可得到参数α∗, 并根据式 (4) 还原出类中心曲线。 2 算法效果模拟验证与分析 为验证本文曲线聚类算法的效果,利用模拟 数据与文献 [9] 中曲线聚类方法进行比较。模拟 ·364· 智 能 系 统 学 报 第 14 卷
第2期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·365· 数据由两组高斯分布生成两类曲线构成。模拟过 率本文方法错判率。结果见表1。 程中两类高斯分布均值取0.5和1,方差取0.7和1。 表1、2表明:无论本文的曲线聚类还是文献[9 在确定类别的前提下比较本文算法与文献[9] 中的曲线聚类方法,类中心的变化与高斯分布中 曲线聚类算法的聚类效果。聚类效果评价指标采 均值有关,而聚类效果好坏与高斯分布的方差有 用兰德指数(Rand index)评价算法的性能2o。同 关。对比表1、2中的同均值异方差和异均值异方 时分析两组高斯分布的参数(均值和方差)对聚 差的错判率及兰德指数可以得出:当两类高斯分 类的影响。分析结果显示:同均值异方差情况下 布均值相同,方差不同时,两种方法对应的兰德 两种曲线聚类方法聚类结果均存在一定的误判, 指数相比于其他类型数据偏低。同时方差因素对 异均值异方差情况下二者聚类也存在误判,异均 聚类效果也会产生影响。综合比较表1、2中的 值同方差情况下二者聚类未出现误判。以下针对 3类数据错判率及兰德指数,可以得到:对于曲线 这一现象做出分析。 聚类分析,聚类效果会同时受数据总体均值和方 该部分采用R软件进行数据模拟分析,每组 差的影响,对比分析表1、2均值相同方差不同的 包含条数据,每条数据含有个数据点,则模拟数据 情形,可以得到:均值对聚类的影响程度要大于 中每组高斯分布要生成m×n个随机数。为保证拟合 方差,同时表1、2对两种方法错判率对比结果显本 结果的光滑,内部节点采用等距节点设置方式。 文的方法能够降低聚类错判率从而提高聚类效果。 针对高斯分布中的均值和方差分别在同均值异方 表13种类型模拟数据平均错判率 差、同方差异均值、异均值异方差情况下分析本 Table 1 Average error rate of three types'simulated data 文的曲线聚类方法与已有曲线聚类方法的效果, 并对相应结果进行分析。为便于表述,两类模拟 文献91 参数 本文方法 错判率下 数据分别记为1类和2类,生成的区间长度设置 方法 降比例 为12。为便于展示,本文以图1异均值异方差条 同均值异方差平均错判率 件下两种聚类方法比较为例。 (mean=0.5,Var=1; 0.308 0.183 0.125 60 1类 mean=0.5,Va=0.7) 异均值同方差平均错判率 (mean=0.5,Var=1; 0.000 0.000 0.000 mean=1,Var=1) 50 异均值异方差平均错判率 (mean=0.5,Var=1; 0.099 0.084 0.015 6 10 mean=1,Var=0.7) 长度 (a)文献[9]曲线聚类 注:错判率=abs(1类个数-m)/m,模拟验证中m=l2,n=50:错判 率下降比例为文献9]方法错判率-本文方法错判率 表23种类型模拟数据兰德指数 Table 2 Rand index of three types'simulated data 参数 文献[]本文 方法方法 同均值异方差兰德指数 45 0.7400.780 8 10 2 (mean=0.5,Var=1;mean=0.5,Var=0.7) 长度 (b)本文曲线聚类 异均值同方差兰德指数 1.0001.000 (mean=0.5,Var=1;mean=1,Var=1) 图1模拟数据曲线聚类对比 异均值异方差兰德指数 Fig.1 Comparison with simulated data of curve's clustering 0.8500.870 (mean=0.5,Var=1;mean=1,Var=0.7) 图1表明:两组高斯分布参数不同条件下,本 文方法与文献[9相比,图1(b)中1类曲线分布密 3NO,小时浓度曲线聚类效果分析 集程度大于图1(a)中1类曲线。为避免模拟次数 少或其他原因对聚类效果的影响,对3种类型的 空气质量,不仅关乎人类生存质量,同时也是 数据分别模拟一万次,比较两种方法的平均错判 衡量可持续发展能力和宜居程度的重要指标。 率,定义错判率=abs(1类个数-n)/n,模拟验证中 NO2是一种重要的机动车尾气污染物,其污染程 m=12,n=50,错判率下降比例=文献[9]方法错判 度涉及人们生活出行的健康。近年来,空气质量
数据由两组高斯分布生成两类曲线构成。模拟过 程中两类高斯分布均值取 0.5 和 1,方差取 0.7 和 1。 在确定类别的前提下比较本文算法与文献 [9] 曲线聚类算法的聚类效果。聚类效果评价指标采 用兰德指数 (Rand index) 评价算法的性能[20]。同 时分析两组高斯分布的参数 (均值和方差) 对聚 类的影响。分析结果显示:同均值异方差情况下 两种曲线聚类方法聚类结果均存在一定的误判, 异均值异方差情况下二者聚类也存在误判,异均 值同方差情况下二者聚类未出现误判。以下针对 这一现象做出分析。 n m m×n 该部分采用 R 软件进行数据模拟分析,每组 包含 条数据,每条数据含有 个数据点,则模拟数据 中每组高斯分布要生成 个随机数。为保证拟合 结果的光滑,内部节点采用等距节点设置方式。 针对高斯分布中的均值和方差分别在同均值异方 差、同方差异均值、异均值异方差情况下分析本 文的曲线聚类方法与已有曲线聚类方法的效果, 并对相应结果进行分析。为便于表述,两类模拟 数据分别记为 1 类和 2 类,生成的区间长度设置 为 12。为便于展示,本文以图 1 异均值异方差条 件下两种聚类方法比较为例。 图 1 表明:两组高斯分布参数不同条件下,本 文方法与文献 [9] 相比,图 1(b) 中 1 类曲线分布密 集程度大于图 1(a) 中 1 类曲线。为避免模拟次数 少或其他原因对聚类效果的影响,对 3 种类型的 数据分别模拟一万次,比较两种方法的平均错判 率,定义错判率=abs(1 类个数−n)/n,模拟验证中 m=12,n=50,错判率下降比例=文献 [9] 方法错判 率-本文方法错判率。结果见表 1。 表 1、2 表明:无论本文的曲线聚类还是文献 [9] 中的曲线聚类方法,类中心的变化与高斯分布中 均值有关,而聚类效果好坏与高斯分布的方差有 关。对比表 1、2 中的同均值异方差和异均值异方 差的错判率及兰德指数可以得出:当两类高斯分 布均值相同,方差不同时,两种方法对应的兰德 指数相比于其他类型数据偏低。同时方差因素对 聚类效果也会产生影响。综合比较表 1、2 中的 3 类数据错判率及兰德指数,可以得到:对于曲线 聚类分析,聚类效果会同时受数据总体均值和方 差的影响,对比分析表 1、2 均值相同方差不同的 情形,可以得到:均值对聚类的影响程度要大于 方差,同时表 1、2 对两种方法错判率对比结果显本 文的方法能够降低聚类错判率从而提高聚类效果。 3 NO2 小时浓度曲线聚类效果分析 空气质量,不仅关乎人类生存质量,同时也是 衡量可持续发展能力和宜居程度的重要指标。 NO2 是一种重要的机动车尾气污染物,其污染程 度涉及人们生活出行的健康。近年来,空气质量 表 1 3 种类型模拟数据平均错判率 Table 1 Average error rate of three types' simulated data 参数 文献[9] 方法 本文方法 错判率下 降比例 同均值异方差平均错判率 (mean=0.5,Var=1; mean=0.5,Var=0.7) 0.308 0.183 0.125 异均值同方差平均错判率 (mean=0.5,Var=1; mean=1,Var=1) 0.000 0.000 0.000 异均值异方差平均错判率 (mean=0.5,Var=1; mean=1,Var=0.7) 0.099 0.084 0.015 注:错判率=abs(1类个数−n)/n,模拟验证中m=12,n=50;错判 率下降比例为文献[9]方法错判率−本文方法错判率 表 2 3 种类型模拟数据兰德指数 Table 2 Rand index of three types' simulated data 参数 文献[9] 方法 本文 方法 同均值异方差兰德指数 (mean=0.5,Var=1;mean=0.5,Var=0.7) 0.740 0.780 异均值同方差兰德指数 (mean=0.5,Var=1;mean=1,Var=1) 1.000 1.000 异均值异方差兰德指数 (mean=0.5,Var=1;mean=1,Var=0.7) 0.850 0.870 2 4 6 8 10 12 45 50 55 60 模拟值 2 4 6 8 10 12 45 50 55 60 模拟值 1 类 2 类 1 类 2 类 长度 长度 (a) 文献[9]曲线聚类 (b) 本文曲线聚类 图 1 模拟数据曲线聚类对比 Fig. 1 Comparison with simulated data of curve's clustering 第 2 期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·365·
·366· 智能系统学报 第14卷 问题引起人们广泛的关注,大气污染监测数据成 为人们了解空气质量的客观途径,也构成空气质 100 量统计分析的数据基础。 80 作为示例,通过实时网络爬虫手段,采集兰 州市铁路设计院空气质量监测站(交通污染控制 40 点)的NO2小时浓度数据,采用本文的曲线聚类 20 算法展开大气污染等级聚类分析,并与传统曲线 10 1520 聚类结果进行比较。我们分析的样本期为 (a)文献9]曲线聚类,K=4 2013年6月1日一10月14日。 根据前面的方法,采用B-样条基底函数进行 曲线聚类分析。为保证拟合结果光滑,两种聚类 80 -4 方法样条基底阶数M均设置为5,节点采用等距 60 节点设置为11(文中采用广义交叉验证准则进行 节点数量选择)。考虑相同类中心下,与文献 20 [9]曲线聚类进行聚类效果对比,如图2所示。 5 10 1520 图2表明,K=5时类中心聚类效果优于K=4 (b)本文曲线聚类,K=4 即随着类中心个数的增加,两种方法的聚类效果 均有所提升,说明类中心个数的确定在曲线聚类 中起到关键作用。但需要指出的是,本文方法的 100 类中心分布曲线更为平滑,类间的类中心曲线分 80 布更为分散,进一步说明本文提出的方法聚类效 果优于已有聚类方法。此外,考虑到实际应用, 40 可将图2中的不同类别曲线看作空气质量污染物 0 等级划分。对比图2(a、(c)与图2b)、(d可以 10 1520 t/h 发现,在空气质量实时监测过程中,图2(a)、(c)出 (C)文献9]曲线聚类,K=5 现不同等级交叉情况,这对空气质量等级划分及 应对会造成影响22。图2(b)、(d)在进行空气质量 分析过程中能够较好的对空气质量进行聚类。另 80 60 外,相比于针对离散数据的传统K-means聚类分 析2趴,本文方法能够实时检测NO,小时浓度变化 40 趋势,并依据该变化趋势对污染物进行等级划分。 20 为便于展示,本文以K=5的曲线聚类结果为 5 10 15 20 h 例,结果见图3。图3表明,相比于已有曲线聚类 (d本文曲线聚类,K=5 算法,利用本文曲线聚类算法类内曲线分布集 图2曲线聚类类中心对比 中,类间差异化明显。这与图2中两种曲线聚类 Fig.2 Comparison with curve cluster's center generated 算法类中心比较结果相一致。说明本文方法具有 by different algorithms 较好的类间区分度。 为进一步验证本文曲线聚类的聚类效果,对 第1 两种方法的分类精确度采用公式:类间差异(类 140 第3 内差异+类间差异)进行对比,见图4。图4表明, 120 单4 100 随着类中心个数的增加,两种曲线聚类算法聚类 80 效果均有所提高。本文曲线聚类的聚类效果要好 60 40 于文献[9]的方法。通过与文献[9]方法进行比 20 较,本文方法在4类的聚类效果低于3类聚类效 果,随着类中心个数大于4类,聚类效果才逐步随 10 15 20 h 着类中心个数增加聚类效果不断提升。说明本文 (a)文献[9]曲线聚类算法
问题引起人们广泛的关注,大气污染监测数据成 为人们了解空气质量的客观途径,也构成空气质 量统计分析的数据基础。 作为示例,通过实时网络爬虫手段[21] ,采集兰 州市铁路设计院空气质量监测站 (交通污染控制 点) 的 NO2 小时浓度数据,采用本文的曲线聚类 算法展开大气污染等级聚类分析,并与传统曲线 聚类结果进行比较。我们分析的样本期 为 2013 年 6 月 1 日—10 月 14 日。 根据前面的方法,采用 B-样条基底函数进行 曲线聚类分析。为保证拟合结果光滑,两种聚类 方法样条基底阶数 M 均设置为 5,节点采用等距 节点设置为 11(文中采用广义交叉验证准则进行 节点数量选择)。考虑相同类中心下,与文献 [9] 曲线聚类进行聚类效果对比,如图 2 所示。 图 2 表明,K=5 时类中心聚类效果优于 K=4, 即随着类中心个数的增加,两种方法的聚类效果 均有所提升,说明类中心个数的确定在曲线聚类 中起到关键作用。但需要指出的是,本文方法的 类中心分布曲线更为平滑,类间的类中心曲线分 布更为分散,进一步说明本文提出的方法聚类效 果优于已有聚类方法。此外,考虑到实际应用, 可将图 2 中的不同类别曲线看作空气质量污染物 等级划分[20]。对比图 2(a)、(c) 与图 2(b)、(d) 可以 发现,在空气质量实时监测过程中,图 2(a)、(c) 出 现不同等级交叉情况,这对空气质量等级划分及 应对会造成影响[22]。图 2(b)、(d) 在进行空气质量 分析过程中能够较好的对空气质量进行聚类。另 外,相比于针对离散数据的传统 K-means 聚类分 析 [23] ,本文方法能够实时检测 NO2 小时浓度变化 趋势,并依据该变化趋势对污染物进行等级划分。 为便于展示,本文以 K=5 的曲线聚类结果为 例,结果见图 3。图 3 表明,相比于已有曲线聚类 算法,利用本文曲线聚类算法类内曲线分布集 中,类间差异化明显。这与图 2 中两种曲线聚类 算法类中心比较结果相一致。说明本文方法具有 较好的类间区分度。 为进一步验证本文曲线聚类的聚类效果,对 两种方法的分类精确度采用公式:类间差异/(类 内差异+类间差异) 进行对比,见图 4。图 4 表明, 随着类中心个数的增加,两种曲线聚类算法聚类 效果均有所提高。本文曲线聚类的聚类效果要好 于文献 [9] 的方法。通过与文献 [9] 方法进行比 较,本文方法在 4 类的聚类效果低于 3 类聚类效 果,随着类中心个数大于 4 类,聚类效果才逐步随 着类中心个数增加聚类效果不断提升。说明本文 20 40 60 80 100 NO 小时浓度 2 /(μg·m−3 ) 20 40 60 80 100 NO 小时浓度 2 /(μg·m−3 ) 20 40 60 80 100 NO 小时浓度 2 /(μg·m−3 ) 5 10 15 20 20 40 60 80 100 t/h NO 小时浓度 2 /(μg·m−3 ) (a) 文献[9]曲线聚类, K=4 5 10 15 20 t/h (b) 本文曲线聚类, K=4 5 10 15 20 t/h (c) 文献[9]曲线聚类, K=5 5 10 15 20 t/h (d) 本文曲线聚类, K=5 1类 2类 3类 4类 1类 2类 3类 4类 1类 2类 3类 4类 5类 1类 2类 3类 4类 5类 图 2 曲线聚类类中心对比 Fig. 2 Comparison with curve cluster's center generated by different algorithms 5 10 15 20 0 40 20 100 80 60 140 120 t/h NO 小时浓度 2 /(μg·m−3 ) 第 1 类 第 2 类 第 3 类 第 4 类 第 5 类 (a) 文献[9]曲线聚类算法 ·366· 智 能 系 统 学 报 第 14 卷
第2期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·367· [4]FERRATY F.VIEU P.Nonparametric functional data ana- 140 lysis:theory and practice[M].New York:Springer,2006: 120 11-18 100 80 [5]BOUVEYRON C.BRUNET-SAUMARD C.Model-based 60 clustering of high-dimensional data:a review[J].Computa- 40 tional statistics data analysis,2014,71:52-78 20 0 [6]ROSSI F,CONAN-GUEZ B,GOLLI A E.Clustering 10 15 20 functional data with the SOM algorithm[C]//proceedings of t/h (b)本文算法 European Symposium on Artificial Neural Networks. Bruges,Belgium,2004:305-312. 图3NO2小时浓度数据曲线聚类对比 [7]PENG Jie,MuLLER H G.Distance-based clustering of Fig.3 Comparison with curve clustering of NO,concen- sparsely observed stochastic processes,with applications to tration online auctions[J].The annals of applied statistics,2008, 0.90。 2(3:1056-1077. 0.88 0.86 [8]ABRAHAM C.CORNILLON P A.MATZNER-LOBER E,et al.Unsupervised curve clustering using B-splines[J]. Scandinavian journal of statistics,2003,30(3):581-595. ¥0.76 0.74 +文献9]方法 [9]黄恒君.基于B-样条基底展开的曲线聚类方法.统计 0.72 。一本文方法 与信息论坛,2013,28(9):3-8 0.70 3 67 8910 HUANG Hengjun.Curves clustering using B-splines ex- 类中心个数 pansion[J].Statistics information forum,2013,28(9):3-8. 图4聚类效果对比结果 [10]KAYANO M,DOZONO K,KONISHI S.Functional Fig.4 Comparison with clustering effects cluster analysis via orthonormalized gaussian basis expan- 方法存在一定的不稳定性。 sions and its application[J].Journal of classification, 2010,27(2:211-230. 4结束语 [11]王永坤,王海洋,潘平峻,等.面向公共安全的时空数据 挖掘综述[).重庆邮电大学学报(自然科学版),2018, 本文基于已有曲线聚类方法,针对聚类效果 30(1:40-52 不明显的问题,提出加入类间因素的扩展曲线聚 WANG Yongkun,WANG Haiyang,PAN Pingjun,et al. 类算法。加入类间因素能够同时保证两类数据类 A survey of data mining on spatial-temporal user behavi- 内差异较小和类间差异较大。模拟数据及实例应 or data for public safety[J].Journal of chongqing uni- 用表明,本文的曲线聚类算法有助于提高聚类效果。 versity of posts and telecommunications(natural science 需要说明的是,本文的目的是将同时考虑类 edition),2018,30(1):40-52 内和类间差异的做法引入曲线聚类算法。但我们 [12]CHEAM A S M,MARBAC M,MCNICHOLAS P D. 的做法属于两步法,即首先拟合曲线,然后进行 Model-based clustering for spatiotemporal data on air 聚类。这种做法很难达到两部分的统一优化2。 quality monitoring[J].Environmetrics,2017,28(3): e2437. 为此,后续的工作是,在同时考虑类内和类间差 [13]BOUVEYRON C,JACQUES J.Model-based clustering 异的情况下,进行自适应算法研究,即将曲线拟 of time series in group-specific functional subspaces[J]. 合和聚类分析纳入一个目标函数,同时进行优化。 Advances in data analysis and classification,2011,5(4): 参考文献: 281-300. [14]CHIOU J M.LI Pailing.Functional clustering and identi- [1]RAMSAY J O.When the data are functions[J].Psycho- fying substructures of longitudinal data[J].Journal of the metrika,.1982,47(4):379-396. royal statistical society series B,2007,69(4):679-699. [2]JACQUES J,PREDA C.Functional data clustering:a sur- [l5]王永,万潇逸,陶娅芝,等.基于K-medoids项目聚类的 vey[J].Advances in data analysis and classification,2014, 协同过滤推荐算法)重庆邮电大学学报(自然科学 8(3):231-255 版),2017,29(4:521-526. [3]RAMSAY J O.SILVERMAN B W.Functional data ana- WANG Yong,WAN Xiaoyi,TAO Yazhi,et al.Collabor- lysis[M].2nd ed.New York:Springer,2005:1-18. ative filtering recommendation algorithm based on K-
方法存在一定的不稳定性。 4 结束语 本文基于已有曲线聚类方法,针对聚类效果 不明显的问题,提出加入类间因素的扩展曲线聚 类算法。加入类间因素能够同时保证两类数据类 内差异较小和类间差异较大。模拟数据及实例应 用表明,本文的曲线聚类算法有助于提高聚类效果。 需要说明的是,本文的目的是将同时考虑类 内和类间差异的做法引入曲线聚类算法。但我们 的做法属于两步法,即首先拟合曲线,然后进行 聚类。这种做法很难达到两部分的统一优化[24]。 为此,后续的工作是,在同时考虑类内和类间差 异的情况下,进行自适应算法研究,即将曲线拟 合和聚类分析纳入一个目标函数,同时进行优化。 参考文献: RAMSAY J O. When the data are functions[J]. Psychometrika, 1982, 47(4): 379–396. [1] JACQUES J, PREDA C. Functional data clustering: a survey[J]. Advances in data analysis and classification, 2014, 8(3): 231–255. [2] RAMSAY J O, SILVERMAN B W. Functional data analysis[M]. 2nd ed. New York: Springer, 2005: 1–18. [3] FERRATY F, VIEU P. Nonparametric functional data analysis: theory and practice[M]. New York: Springer, 2006: 11–18. [4] BOUVEYRON C, BRUNET-SAUMARD C. Model-based clustering of high-dimensional data: a review[J]. Computational statistics & data analysis, 2014, 71: 52–78. [5] ROSSI F, CONAN-GUEZ B, GOLLI A E. Clustering functional data with the SOM algorithm[C]//proceedings of European Symposium on Artificial Neural Networks. Bruges, Belgium, 2004: 305–312. [6] PENG Jie, MüLLER H G. Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions[J]. The annals of applied statistics, 2008, 2(3): 1056–1077. [7] ABRAHAM C, CORNILLON P A, MATZNER-LØBER E, et al. Unsupervised curve clustering using B-splines[J]. Scandinavian journal of statistics, 2003, 30(3): 581–595. [8] 黄恒君. 基于 B-样条基底展开的曲线聚类方法 [J]. 统计 与信息论坛, 2013, 28(9): 3–8. HUANG Hengjun. Curves clustering using B-splines expansion[J]. Statistics & information forum, 2013, 28(9): 3–8. [9] KAYANO M, DOZONO K, KONISHI S. Functional cluster analysis via orthonormalized gaussian basis expansions and its application[J]. Journal of classification, 2010, 27(2): 211–230. [10] 王永坤, 王海洋, 潘平峻, 等. 面向公共安全的时空数据 挖掘综述 [J]. 重庆邮电大学学报 (自然科学版), 2018, 30(1): 40–52. WANG Yongkun, WANG Haiyang, PAN Pingjun, et al. A survey of data mining on spatial-temporal user behavior data for public safety[J]. Journal of chongqing university of posts and telecommunications (natural science edition), 2018, 30(1): 40–52. [11] CHEAM A S M, MARBAC M, MCNICHOLAS P D. Model-based clustering for spatiotemporal data on air quality monitoring[J]. Environmetrics, 2017, 28(3): e2437. [12] BOUVEYRON C, JACQUES J. Model-based clustering of time series in group-specific functional subspaces[J]. Advances in data analysis and classification, 2011, 5(4): 281–300. [13] CHIOU J M, LI Pailing. Functional clustering and identifying substructures of longitudinal data[J]. Journal of the royal statistical society series B, 2007, 69(4): 679–699. [14] 王永, 万潇逸, 陶娅芝, 等. 基于 K-medoids 项目聚类的 协同过滤推荐算法 [J]. 重庆邮电大学学报 (自然科学 版), 2017, 29(4): 521–526. WANG Yong, WAN Xiaoyi, TAO Yazhi, et al. Collaborative filtering recommendation algorithm based on K- [15] 3 4 5 6 7 8 9 10 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90 文献[9]方法 本文方法 类中心个数 聚类精确度 图 4 聚类效果对比结果 Fig. 4 Comparison with clustering effects 第 1 类 第 2 类 第 3 类 第 4 类 第 5 类 5 10 15 20 0 40 20 100 80 60 140 120 t/h NO 小时浓度 2 /(μg·m−3 ) (b) 本文算法 图 3 NO2 小时浓度数据曲线聚类对比 Fig. 3 Comparison with curve clustering of NO2 concentration 第 2 期 许腾腾,等:一种加入类间因素的曲线聚类算法 ·367·
·368· 智能系统学报 第14卷 medoids item clustering[J].Journal of Chongqing uni- al air quality evaluation method based on the six pollut- versity of posts and telecommunications(natural science ants in the urban areas of Beijing[J].Journal of safety and edition),2017,29(4):521-526. environment,2015,15(1):310-315. [16]JACQUES J.PREDA C.Model-based clustering for mul- [23]郭云飞,林红飞,郑旭.中国城市空气质量指标的聚类 tivariate functional data[J].Computational statistics 分析[.统计与管理,2016(8):80-81 data analysis,2014,71:92-106. GUO Yunfei,LIN Hongfei,ZHENG Xu.Clustering ana- [17]JACQUES J,PREDA C.Funclust:a curves clustering lysis of urban air quality indexes in China[J].Statistics method using functional random variables density approx- and management,2016(8):80-81. imation[J].Neurocomputing,2013,112:164-171. [24]YAMAMOTO M.HWANG H.Dimension-reduced clus- [18]卞则康,王士同.基于混合距离学习的鲁棒的模糊C均 tering of functional data via subspace separation[J]. 值聚类算法.智能系统学报,2017,12(4):450-458. Journal of classification,2017,34(2):294-326. BIAN Zekang,WANG Shitong.Robust FCM clustering 作者简介: algorithm based on hybrid-distance learning[J].CAAl transactions on intelligent systems,2017,12(4):450-458. 许腾腾,男,1992年生,硕士研究 [19]HUANG Xiaohui,YE Yunming,ZHANG Haijun.Exten- 生,主要研究方向为异源异构数据整 sions of kmeans-type algorithms:a new clustering frame- 合与函数型数据分析。 work by integrating intracluster compactness and inter- cluster separation[J].IEEE transactions on neural net- works and learning systems,2014,25(8):1433-1446. [20]JAIN A K,DUBES R C.Algorithms for clustering data[M].Upper Saddle River,NJ:Prentice-Hall,1988: 王瑞.女,1993年生,硕士研究 227-229. 生,主要研究方向为经济统计。 [21]黄恒君,漆威.海量半结构化数据采集、存储及分析-基 于实时空气质量数据处理的实践.统计研究,2014, 31(5):10-16. HUANG Hengjun,QI Wei.Massive semi-structured data: collection,storage and analysis--based on the practice of real-time air quality data processing[J].Statistical re- 黄恒君,男,1981年生.教授,博 土,主要研究方向为异源异构数据整 search,2014,31(5):10-16. 合与函数型数据分析。主持国家社会 [22]刘杰,杨鹏,吕文生,等.基于北京市6类污染物的环境 科学基金项目1项,获得省部级科研 空气质量评价方法安全与环境学报,2015,15(1): 奖励4项。发表学术论文30余篇。 310-315 LIU Jie,YANG Peng,Lu Wensheng,et al.Environment-
medoids item clustering[J]. Journal of Chongqing university of posts and telecommunications (natural science edition), 2017, 29(4): 521–526. JACQUES J, PREDA C. Model-based clustering for multivariate functional data[J]. Computational statistics & data analysis, 2014, 71: 92–106. [16] JACQUES J, PREDA C. Funclust: a curves clustering method using functional random variables density approximation[J]. Neurocomputing, 2013, 112: 164–171. [17] 卞则康, 王士同. 基于混合距离学习的鲁棒的模糊 C 均 值聚类算法 [J]. 智能系统学报, 2017, 12(4): 450–458. BIAN Zekang, WANG Shitong. Robust FCM clustering algorithm based on hybrid-distance learning[J]. CAAI transactions on intelligent systems, 2017, 12(4): 450–458. [18] HUANG Xiaohui, YE Yunming, ZHANG Haijun. Extensions of kmeans-type algorithms: a new clustering framework by integrating intracluster compactness and intercluster separation[J]. IEEE transactions on neural networks and learning systems, 2014, 25(8): 1433–1446. [19] JAIN A K, DUBES R C. Algorithms for clustering data[M]. Upper Saddle River, NJ: Prentice-Hall, 1988: 227–229. [20] 黄恒君, 漆威. 海量半结构化数据采集、存储及分析--基 于实时空气质量数据处理的实践 [J]. 统计研究, 2014, 31(5): 10–16. HUANG Hengjun, QI Wei. Massive semi-structured data: collection, storage and analysis--based on the practice of real-time air quality data processing[J]. Statistical research, 2014, 31(5): 10–16. [21] 刘杰, 杨鹏, 吕文生, 等. 基于北京市 6 类污染物的环境 空气质量评价方法 [J]. 安全与环境学报, 2015, 15(1): 310–315. LIU Jie, YANG Peng, Lü Wensheng, et al. Environment- [22] al air quality evaluation method based on the six pollutants in the urban areas of Beijing[J]. Journal of safety and environment, 2015, 15(1): 310–315. 郭云飞, 林红飞, 郑旭. 中国城市空气质量指标的聚类 分析 [J]. 统计与管理, 2016(8): 80–81. GUO Yunfei, LIN Hongfei, ZHENG Xu. Clustering analysis of urban air quality indexes in China[J]. Statistics and management, 2016(8): 80–81. [23] YAMAMOTO M, HWANG H. Dimension-reduced clustering of functional data via subspace separation[J]. Journal of classification, 2017, 34(2): 294–326. [24] 作者简介: 许腾腾,男,1992 年生,硕士研究 生,主要研究方向为异源异构数据整 合与函数型数据分析。 王瑞,女,1993 年生,硕士研究 生,主要研究方向为经济统计。 黄恒君,男,1981 年生,教授,博 士,主要研究方向为异源异构数据整 合与函数型数据分析。主持国家社会 科学基金项目 1 项,获得省部级科研 奖励 4 项。发表学术论文 30 余篇。 ·368· 智 能 系 统 学 报 第 14 卷