ρｉ ≈ ∑ ｘｊ∈ｃｅｌｌｘｉ ( ) ∧ｊ≠ｉｅ－ｄｉｊｄ

正在加载图片...

.234. 智能系统学报第12卷 P:≈ ∑，e(自)产+Phc)(8) 000个样本点。图7(a)所示为原算法[]的聚类结 e cell(E)y≠i 果，其参数d.值是一个经验值0.03，即选取最小2% eigoe.（x;）= 的距离做截断：图7(b)所示为改进算法的聚类结 Ce neighbor(cell() 果，其参数d.值是通过密度估计嫡最小化得到的优 (9) 化值，略大于论文)实验采用的经验值，但聚类质其中P恤.(x,)的计算公式代表邻近网格量相对更好，而且抗噪声能力更好。单元内的样本点对P:的贡献。此时计算任一样本 0.5 点的局部密度估计值所需时间开销仅为空间索引时间，即O(log(na),nd<n为非空网格单元数，而构造空间索引结构所需时间为O(og(n)),算法总的时间复杂度近似为O(log(nd))。具体算法描述如下： 2.3改进算法描述给定数据集D={x1,x2,…,x},改进的快速搜 0.5 索密度峰值的聚类算法可以描述如下。 -0.8-0.6-0.4-0.200.20.40.6 算法改进的搜索密度峰值的聚类算法 (a)原算法(d.=0.03) (ICADEP) 0.5 输入数据集D={x1,x2,…,xn},抽样个数 nsample 输出数据划分Π。算法步骤： I)随机抽取nap。个样本点组成抽样数据集 SampleSet; 2)d.=Optimal_Parameter(SampleSet);/用抽样数据集优化估计密度参数d。; -08060402.002040.6 3)Map CreateMap(D,- );/以为尺度 (b)ICADEP算法(d.=0.05) 图74000个随机样本点的聚类结果比较对空间进行网格划分并构建索引树： Fig.7 Comparison of clustering results of 4000 random 4)p =Density_Estimation(D,Map,d);// sample points 算所有样本点的局部密度估计值P1,P2,…,Pn; 图8(a)所示为原算法聚类结果，参数d.选取 5)8=NN_Distance(D,Map,p);/按照局部最小2%的距离做截断，即d.=2.23:而图8(b)所示密度估从大到小的顺序，计算所有样本点的高密度的改进算法聚类结果中，通过密度估计嫡最小化得最所邻距离81，…，6n; 到的优化d。值虽然略小于论文实验的经验值，即 6)C=Decision_Graph(D,p,δ)：//形成决策 d.=2.02,但聚类结果同样能够正确识别原始数据分图，根据用户交互，确定代表聚类中心的样本子集：布的7个内在的数据类。 7)Π=Partition(D,C);/将所有非中心样本 20 15 点沿着密度估计值递增的最近邻方向，迭代划分给 10 相应的聚类中心，实现数据划分。 - 3实验结果与比较 -5 这里采用图1、2所示的测试数据集检验改进算法ICADEP的有效性。所有程序用软件Matlab2011 102势 -15 实现，测试在一台PC机(i5-3210MCPU、8GHz内 20-15-10-5 05101520 存、Win7)上进行，聚类结果如图7~9所示。图7所 (a)原算法(d。=2.23) 示的测试数据包含6个聚类和一些噪声数据，共4ρｉ ≈ ∑ ｘｊ∈ｃｅｌｌｘｉ ( ) ∧ｊ≠ｉｅ－ｄｉｊｄｃ ( ) ２＋ φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓｘｉ ( ) （８） φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓ（ｘｉ）＝Ｃ∈ｎｅｉｇｈ∑ｂｏｒ（ｃｅｌｌ（ｘｉ））ｎｃ·ｅ－ｄｘｉ，ｘｃ ( ) ｄｃ ( ) ２（９）其中 φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓｘｉ ( ) 的计算公式代表邻近网格单元内的样本点对 ρｉ的贡献。此时计算任一样本点的局部密度估计值所需时间开销仅为空间索引时间，即Ｏ（ｌｏｇ（ｎｇｒｉｄ）），ｎｇｒｉｄ＜＜ｎ为非空网格单元数，而构造空间索引结构所需时间为Ｏ（ｌｏｇ（ｎｇｒｉｄ）），算法总的时间复杂度近似为Ｏ（ｌｏｇ（ｎｇｒｉｄ））。具体算法描述如下：２．３改进算法描述给定数据集Ｄ＝ｘ１，ｘ２，…，ｘｎ { } ，改进的快速搜索密度峰值的聚类算法可以描述如下。算法改进的搜索密度峰值的聚类算法（ＩＣＡＤＥＰ）输入数据集Ｄ＝ｘ１，ｘ２，…，ｘｎ { } ，抽样个数ｎｓａｍｐｌｅ；输出数据划分P。算法步骤：１）随机抽取ｎｓａｍｐｌｅ个样本点组成抽样数据集ＳａｍｐｌｅＳｅｔ；２）ｄｃ＝Ｏｐｔｉｍａｌ＿Ｐａｒａｍｅｔｅｒ（ＳａｍｐｌｅＳｅｔ）；／／用抽样数据集优化估计密度参数ｄｃ；３）Ｍａｐ＝ＣｒｅａｔｅＭａｐ（Ｄ，ｄｃ２）；／／以ｄｃ２为尺度对空间进行网格划分并构建索引树；４） ρ ＝Ｄｅｎｓｉｔｙ＿Ｅｓｔｉｍａｔｉｏｎ（Ｄ，Ｍａｐ，ｄｃ）；／／计算所有样本点的局部密度估计值 ρ１，ρ２，…，ρｎ；５） δ ＝ＮＮ＿Ｄｉｓｔａｎｃｅ（Ｄ，Ｍａｐ， ρ ）；／／按照局部密度估从大到小的顺序，计算所有样本点的高密度最所邻距离 δ１，…，δｎ；６）Ｃ＝Ｄｅｃｉｓｉｏｎ＿Ｇｒａｐｈ（Ｄ， ρ， δ ）；／／形成决策图，根据用户交互，确定代表聚类中心的样本子集；７）P＝Ｐａｒｔｉｔｉｏｎ（Ｄ，Ｃ）；／／将所有非中心样本点沿着密度估计值递增的最近邻方向，迭代划分给相应的聚类中心，实现数据划分。３实验结果与比较这里采用图１、２所示的测试数据集检验改进算法ＩＣＡＤＥＰ的有效性。所有程序用软件Ｍａｔｌａｂ２０１１实现，测试在一台ＰＣ机（ｉ５－３２１０ＭＣＰＵ、８ＧＨｚ内存、Ｗｉｎ７）上进行，聚类结果如图７～９所示。图７所示的测试数据包含６个聚类和一些噪声数据，共４０００个样本点。图７（ａ）所示为原算法［１］的聚类结果，其参数ｄｃ值是一个经验值０．０３，即选取最小２％的距离做截断；图７（ｂ）所示为改进算法的聚类结果，其参数ｄｃ值是通过密度估计熵最小化得到的优化值，略大于论文［１］实验采用的经验值，但聚类质量相对更好，而且抗噪声能力更好。（ａ）原算法［１］（ｄｃ＝０．０３）（ｂ）ＩＣＡＤＥＰ算法（ｄｃ＝０．０５）图７４０００个随机样本点的聚类结果比较Ｆｉｇ．７Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆ４０００ｒａｎｄｏｍｓａｍｐｌｅｐｏｉｎｔｓ图８（ａ）所示为原算法聚类结果，参数ｄｃ选取最小２％的距离做截断，即ｄｃ＝２．２３；而图８（ｂ）所示的改进算法聚类结果中，通过密度估计熵最小化得到的优化ｄｃ值虽然略小于论文［１］实验的经验值，即ｄｃ＝２．０２，但聚类结果同样能够正确识别原始数据分布的７个内在的数据类。（ａ）原算法［１］（ｄｃ＝２．２３） ·２３４· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【机器学习】一种改进的搜索密度峰值的聚类算法