关于数据分类的一个新的有效算法

本文提出了一种新的分类算法,该算法特别适用于分类元素关键字值重复性较高的元素集。新算法采用了我们称之为单指针队列移动的思想,通过扫描全部元素一遍或二遍便将其分类完。当对关键字值仅有M种的共N个元素分类时,新算法的排序效率,即总的比较次数为O（N LOG2M）,元素总移动次数为O（MN）,所需附加空间为M个指针单元和M个存关键字值单元。在极端情况下,即M与N相等时,以上时空效率的形式不改变。
约定:若元素a和b具有相同的关键字值,则称元素a和b是同类元素。反之,亦然。

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：439.83KB

D0I:10.13374/j.issn1001-053x.1985.03.022 北京钢铁学院学报 1985年第3期关于数据分类的一个新的有效算法软件工程教研室李辉华摘要本文提出了一种渐的分类算法，该算法特别适用于分类元素关健字值重复性较高的元素集。新算法采用了我们称之为单指针队列移动的思想，通过扫描全部元素一遍或二遍便将其分类完。当对关键字值仅有M种的共N个元素分类时，新算法的排序效率，即总的比较次数为O(NLOG2M),元素总移动次数为O(MN),所需附加空间为M个指针单元和M个存关键字值单元。在极端情况下，即M与N相等时，以上时空效率的形式不改变。约定：若元素a和b具有相同的关能字值，则称元素a和b是同类元素。反之，亦然。一、问题的提出我们知道，计算机的很多运行时间耗费在分类(Sorting)上。在对元素进行分类时，时常遇到一类特殊问题一当元素集中，元素种类数较少时，如何尽快地将其分类？若利用现存的较好的分类算法，诸如希尔分类法，堆分类法、快速分类法和归并分类法，那么，分类N个元素需时O(N·1og2N),需要附加空间从1个单元到N个单元不等（依次为1、1、 1og2N和N)。这些算法均未利用元素之种类数较少这一特性来改善算法的时空效率。二、算法的设计基础和思想本算法充分利用了元素之种类数较少，或者说元素的关键字值重复性较高这一特性，采用了一种称之为单指针队列的数据结构，并且用一数组向量记下每一种类元素的关健字值以便查对。从总体上看，木算法可分成三个组成部分： (1)输入待分类元素，用数组按分类次序记下每一孙类元素之关键'宁值，即建立关健字值数组。 (2)通过一遍扫描将元素分类完毕。 (3)输出分类结果。在说明各部分的设计思想之前，我们先介绍本算法用到的数据结构。 90

北京钢铁学院学报年第期关于数据分类的一个新的有效算法软件工程教研室李辉华摘要本文提出了一种新的分类算法，该算法特别适用于分类元素关键字值重复性较高的元素集。新算法采用了我们称之为单指针队列移动的思想，通过扫描全部元素一遍或二遍便将其分类完。当对关键字值仅有种的共个元素分类时，新算法的排序效率，即总的比较次数为，元素总移动次数为，所需附加空间为个指针单元和个存关键字值单元。在极端情兄下，即与相等时，以上时空效率的形式不改变。约定若元素和具有相同的关键字值，则称元素和是同类元素。反之，亦然。一、问题的提出我们知道，计算机的很多运行时间耗费在分类匕。在对元素进行分类时，时常遇到一类特殊间题一一当元素集中，元素种类数较少时，如何尽快地将其分类若利用现存的较好的分类算法，诸如希尔分类法、堆分类法、快速分类法和归并分类法，那么，分类个元素需时 · ，需要附加空间从个单元到个单元不等依次为、、和。这些算法均未利用元素之种类数较少这一特性来改善算法的时空效率。二、算法的设计基础和思想本算法充分利用了元素之种类数较少，或者说元素的关键字值重复性较高这一特性，采用了一种称之为单指针队列的数据结构，并且用一数组向量记下每一种类元素的关键字值以便查对。从总体上看，木算法可分成三个组成部分输入待分类元素，用数组按分类次序记下每一种类元素之关键 ‘ 笋汽，即建认关键字值数组。通过一遍扫描将元素分类完毕。输出分类结果。在说明各部分的设计思想之前，我们先介绍本算法用到的数据结构。 DOI ：10．13374／j ．issn1001－053x．1985．03．022

变量MN:分别代表实际的元素种类数和元素的总数，数组A〔1：N):长度为N, 初始时装待分类元素，算法执行完后装已分类的N个元素。数组VALUE〔1：M〕：关键字值数组，按分类次序存贮每一种类元素之关键字值，即满足：VALUE Ci)<VALUE〔i+1〕，1≤i≤M-1。数组P〔1：M):指针数组，指针P〔i〕指向当前第种元素形成的队列之队头元素位置。变量POIN T:指针，指向当前正扫描到的待分类元素。现分别介绍各部分设计思想。 (1)输入待分类元素，建立关键字值数组VALUE,并给指针数组P赋初值。在这一部分中，先读人全部元素放于数组A中。然后扫描N个元素一遍，每扫描到一个元素，就采用折半查找方法查找值数组VALUE,判断该元素是否是新的一类元素，即是否有新的关键字值，若是，将其关键字值按分类次序插入到值数组VALUE中适当位置，并将种类数M增1。全部元素扫描完后，置HM=(M+1)DIV2,置P〔i)=O(1≤ i≤HM),置P〔i)=N+1(HM+1≤i≤N),置指钋PO1NT=1。 (2)通过一次扫描将元素分类完毕。当指针POINT<指针P〔HM+1〕时，循环执行下列操作（见图一、二）： D扫描元素A〔POINT〕，置X=A〔POINT),利用折半查找法查找值数组判断该元素所属种类。若其属于第I种元素，即VALUE〔I〕=A〔POINT)。KEY, 那么，如果I≤HM,转②步。否则，则转③步。 ②置K:=HM,当I≤K时，循环执行下列操作：将指针P〔K〕往后移动一个位置，即增1，再将第K种元素所对应的队列K之队尾元素移至指针P〔K〕所指位置，即 A〔P〔K)):=A〔P〔K-1)+1),然后置K:=K-1,继续循环。循环结束后，将指针P〔I〕后移一个位置，将正扫描到的元素A〔POINT)（保存在X 中)送入P〔I)所指位置，即P〔I〕·=P〔I)+1,A〔P〔I)):=X,然后将指针POINT后移一个位置，扫描下一个待分类元素。 ③置K:=HM+1,将A〔P〔K)一1〕送A〔POINT〕（新的待分类元素），然后，循环执行下列操作直至I≤K：将指针P〔K〕往前移动一个位置，即减1，将第K 种元素所对应的队列K之队尾元素移到P〔K〕现在所指位置，即P〔K):=P〔K) -1,A〔P〔K)):=A〔P〔K+1)-1〕，再置K:=K+1,继续循环。循环结束后，将指针P〔【〕往前移动一个位置，再将当前正扫描到的元素X送入指针P〔I)所指位置，即P〔I：=P〔I)-1,A〔P〔I〕)：=X,然后，指针POINT不变，继续扫描“下一个”待分类元素。 (3)输出分类结果将现在数组A中的元素输出，即得分类结果。 A(I 待分类元素 A(N) 介 P1,P2,…PHM,值为0。 PHM+I,…PM,值为N+1e (图一)初始状态时 91

变量、分别代表实际的元素种类数和元素的总数。数组〔〕长度为，初始时装待分类元素，算法执行完后装己分类的个元素。数组〔〕关键字值数组，按分类次序存贮每一种类元素之关键字值，即满足〔〕〔〕，簇镇一。数组〔〕指针数组，指针〔〕指向当前第种元素形成的队列之队头元素位置。变量指针，指向当前正扫描到的待分类元素。现分别介绍各部分设计思想。输入待分类元素，建立关键字值数组，并给指针数组赋初值。在这一部分中，先读入全部元素放于数组中。然后扫描个元素一遍，每扫描到一个元素，就采用折半查找方法查找值数组，判断该元素是否是新的一类元素，即是否有新的关键字值，若是，将其关键字值按分类次序插人到值数组中适当位置，并将种类数增。全部元素扫描完后，置，置〔〕《，置〔〕《簇，置指针。通过一次扫描将元素分类完毕。当指针指针〔〕时，循环执行下列操作见图一、二 ①扫描元素〔〕，置二〔〕，利用折半查找法查找值数组判断该元素所属种类。若其属于第种元素，即〔〕二〔〕。，那么，如果簇，转②步。否则，则转③步。 ②置二，当时，循环执行下列操作将指针〔〕往后移动一个位置，即增，再将第种元素所对应的队列之队尾元素移至指针〔〕所指位置，即〔〔〕〕〔〔一〕十〕，然后置二一，继续循环。循环结束后，将指针〔〕后移一个位置，将正扫描到的元素〔〕保存在中送入〔〕听指位置，即〔〕〔〕，〔〔〕〕二，然后将指针后移一个位置，扫描下一个待分类元素。 ③ 置二，将〔〔〕一〕送〔〕新的待分类元素，然后，循环执行下列操作直至将指针〔〕往前移动一个位置，即减，将第种元素所对应的队列之队尾元素移到〔〕现在所指位置，即〔〕〔〕一，〔〔〕〕二〔〔〕一〕，再置，十，继续循环。循环结束后，将指针〔〕往前移动一个位置，再将当前正扫描到的元素送入指针〔〕所指位置，即〔〕〔〕一，〔〔〕〕，然后，指针不变，继续扫描 “ 下一个 ” 待分类元素。输出分类结果将现在数组中的元素输出，即得分类结果。仁、沙〔〕待分类元素仓，， … 。、，值为。。。、，仑 … ，，，值为图一初始状态时

往后→ ←往前 h〔1) 尾（队列1）头 Point ACN) L尾（队列Hm)头 L头（队列Hm十1）尾头（队列m)尾：均为第一种元紫均为第Hm种元素均为第Hm千1种元素均为第如分种元恭 PHm-上 PHm 案 PHe+1 PHm+2 (图二)正在分类时三、算法分析 ①分类效率分类效率既是元素分类时平均比较次数。山算法不难得出，在建立关键字值数组VAL UE时，所需比较次数为N·LOG2M,这是因为对M个已分类数据采用折半查找法查找指定元素或判别其不在值数组中所需比较次数为LOG2M。在执行算法第(2)步判断一个元素所属种类时，需LOG2M次比较，N个元素共需(N·LOG2M)次比较。综上所述，本算法，总的比较次数为O(NLOG2M),排序效率为O(NLOG2M)。 ②每一项移动的平均次数在建立关键字值数组VALUE时，在最坏情况下，关键字所需移动的总次数为M(M- 名一1 1)/2（-)。不尖一般性，假设每一元素在数组A中任何位置出现是等概率的，即 P;=1/N。那么，在执行算法第(2)步时，若每一个元素属于任何一类元素是等概率的，即q1=1/M,则分类一个元素所需移动元素的次数为：M/4。这由下式推得， 2 j= M (这里P,=,1=1/M) 在最坏情况下，即元素堆集在两头，其关键字或者较大或者较小时，不难推导出每分类一个元素所需移动元素的次数为M/2。综上所述，分类M种共N个元素所需移动元素的总次数为O(M·N),所移动关键字的总次数为O(M2)。 ③附加空间本算法所需附加空间取决于分类元素的种类数M。具体米说，需M个指针单元，M个元素关键字单元。因此，当每一个元素所占空间远大于其关键字和指针所占的空间时，本算法就更加适用。从算法可以推得，当分类元素按关键字值服从正态分布时，或者元素堆集在中间时，调用本算法分类这些元素所需移动元素次数会减少。另外，若我们初始已知元素的种类数 92

往后叶朴在前层队列二头－一一均为第种－元素头队列二尾〔〕头队列二尾，」勃履而一一种元索均为第种元素元素分类待一爪 ” 功一二 ” … … …” 口图二正在分类时三、算法分析 ①分类效率分类效率既是元素分类时平均比较次数。由算法不难得出，在建立关键字值数组时，所需比较次数为 · ，这是因为对个己分类数据采用折半查找法查找指定元素或判别其不在值数组中所需比较次数为。在执行算法第步判断一个元素所属种类时，需次比较，个元素共需 · 次比较。综上所述，本算法总的比较次数为，排序效率为。 ②每一项移动的平均次数在建立关键字值数组时，在最坏情况下，关键字所需移动的总次数为。不失一般性，假设每一元素在数组中任何位置出现是等概率的，刹玖即。那么，在执行算法第步时，若每一个元素属于任何一类元素是等概率的，即二，则分类一个元素所需移动元素的次数为。这由下式推得，竺三〔，叠乙一瞥，〕 ‘ 。。竺一一，、、 ‘ ，，，。、〕玉且兰下节，、了竺、、‘ ，在最坏情况下，即元素堆集在两头，其关键字或者较大或者较小时，不难推导出每分类一个元素所需移动元素的次数为邝。综上所述，分类种共个元素所需移动元素的总次数为 · ，所移动关键字的总次数为 “ 。 ③附加空间本算法所需附加空间取决于分类元素的种类数。具体来说，需个指针单元，个元素关键字单元。因此，当每一个元素所占空间远大于其关键字和指针所占的空间时，本算法就更加适用。从算法可以推得，当分类元素按关键字值服从正态分布时，或者元素堆集在中间时，调用本算法分类这些元素所需移动元素次数会减少。另外，若我们初始已知元素的种类数

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

关于数据分类的一个新的有效算法