第2期张贺，等：信息嫡度量的离群数据挖掘算法 ·153

正在加载图片...

第2期张贺，等：信息嫡度量的离群数据挖掘算法 ·153· 数(m)、每条记录的属性个数(n)、每个属性值的类视为离群数据.选用此数据集和此方案来做实验是别个数(c)影响.OMBE算法中，主要是2个步骤：因为Z00数据集的背景知识对于大家是熟知的，算 1)计算每条记录对应的离群数据度量因子；2)将其法检测出来的离群数据，可以从客观角度去分析和排序找出离群点.第1步最坏的情况是数据集中每检验算法的有效性和可行性. 个属性的属性值互不相等，时间复杂度O(m×n× 表1列出的是从客观实际角度，统计属性集合 m):但是实际情况下，每个属性的属性值的类别个中每个属性对应的对象集合中的对象是与众不同的数c远远的小于数据集的记录条数m,因此，此步骤次数.其中，与众不同的评判标准是：对象集中某个的时间复杂度应为O(m×n×c).第2步就是一个属性为某个属性值时，有小于15.22%的对象取该简单的排序，可以选用一个时间复杂度在属性值，则此对象在这个属性上是与众不同.从客观 O(mlog m)的排序算法.所以，OMBE算法的时间实际角度分析和解释，如果某对象入选次数越多，则复杂度是O(m×n×c). 说明此对象成为离群点的可能性越大.在表2中，参数取值是ENBROD、LOF和GreedAlg算法获得期望 4 实验分析目标（将所有的爬行动物数据找出来）的较优取值；对OMBE算法的性能进行实验分析.实验平台而OMBE算法在进行挖掘离群点的过程中，不需要配置如下：在PentiumIV3.0GCPU,512MB内存，人为进行干预，即不需要事先输入任何参数和阈值： Windows XP操作系统、DBMS为ORACLE9i,采用从表2中，可以知道OMBE算法在发现离群点的准 Visual C++6.0实现了OMBIE、ENBROD[12、LOF 确度上优于ENBROD和LOP算法.通过表1和表2 I和GreedAlg?算法Io) 的对比，OMBIE和GreedAlg算法更能挖掘出符合客 4.1应用实例分析观规律的离群点· 选用UCI中的Z00数据集，此数据集中有101 表1Z00数据集中与众不同的对象入选次数统计条记录，每条记录拥有18个属性一由1个动物名 Table 1 The number of distinct objects selected in ZOO 称属性、15个布尔属性、2个数值属性组成.其中，15 data set 个布尔属性与动物腿个数的离散数值属性是条件属入选与众不同的对象性；动物类别的离散数值属性是决策属性，采用文献次数 [12]中使用的方法，只取动物类别是哺乳动物和爬 7 seasnake 行动物2类.这样做的原因是：1)使用数据集中的 6 pitviper 5 slowworm 所有记录会使离群特征表现不显著；2)为了构造不 tortoise tuatara seal dolphin porpoise 平衡的分布，构造出来的新数据集中有41个哺乳动物(89%)和5个爬行动物(11%)，其中将爬行动物表2算法的检测准确度对比 Table 2 The contrast of algorithm accuracy 检测5个离群爬行动物数据算法参数正确率/% 1 2ad 3州 4 ENBROD MinPts =45,46 seasnake pitviper tortoise slowworm seal 80 OMBIE无需事先设置参数 seasnake pitviper slowworm tortoise tuatara 100 LOF MinPts =5 seasnake pitviper slowworm tortoise seal 80 GreedAlg k=5 seasnake pitviper slowworm tortoise tuatara 100 4.2UCI数据集13] 为了测试算法对数据集维数的伸缩性，从UCI 的数据点作为离群点，得到测试数据集.由图2可中选取UCI_ZO0(18维)、UCI_MUSHR00M(22 知，随着测试数据集维数的增加，OMBE算法的准维)、UCL_CHESS(36维)和UCI_LUNGCANCER(56 确度变化不大并且比LOF算法和ENBROD算法有维)4个数据集，分别均匀地加入3%具有较大偏差所提高，与GreedAlg算法的准确度相当

<<向上翻页向下翻页>>

点击下载：人工智能基础：信息熵度量的离群数据挖掘算法