·568 北京科技大学学报 2004年第5期 “优”,一个为“良”,可能是由于文科性质的科目 上的点的误差引起的不一致要占一定数量,对于 差距大,拉开了距离.也就是说,属性之间具有相 这种情况,用提高精度的方法排除不一致有一定 关性.不一致事例之间的区别属性一般是那些与 的合理性。 己有属性相关性小的属性.因此,计算与主要属 (3)结论属性中的相邻概念是针对结论属性 性距离大的属性,这些属性可能造成了二不一致 是由一系列递进的概念组成而言的,诸如病情的 事例的结论不一致, “减轻”和“好转”,而此时病情的“好转”和“加 (4)如样本本身固有的性质能够和某些条件 重”是不相邻概念,是对立概念.当结论属性只有 属性共同作用,则可将这些固有的性质作为可添 两个概念时,如“癌细胞”和“正常细胞”,对立概 加的条件属性.如相同的药物组合对不同的病人 念也成为相邻概念, 的效果不一样,可能与病人本身的身体条件有 (4)不相邻概念之间的样例产生不一致或不 关,如性别、年龄、身体健康状况、既往病史等等. 在一个边界上的样例产生的不一致如果有一定 (5)那些与结论属性依赖度大的属性相关度 数量重复,则肯定是由于缺少属性引起, 大的属性,因为依赖度大,说明导出结论的充分 参考文献 性大, 1 Wang G Y,Wu Y,Liu F.Generating rules and reasoning 4讨论与结论 under inconsistencies [A].IEEE International Conference on Industrial Electronics,Control and Instrumentation (1)依据误差理论,由错误引起的误差(粗差) IC1.Nagoya,2000,2536 在重复实验中最多也不超过0.3%,而在非重复实 2 Wang G Y,Liu F.The inconsistency in rough set based rule generation [A].The Second International Conference 验中这种情况的发生要远远低于这个比例,由系 on Rough Sets and Current Trends in Computing [C].Ja- 统误差、偶然误差引起的不一致也只发生在两类 pan,2000.332 边界.由于支持向量数目本身一般很小,再加上 3 Pawlak Z.Rough Sets:Theoretical Aspects of Reasoning 由于误差引起的不一致可能性很小,所以由误差 about Data [M].Amsterdam:Kluwer Academic Publish. 导致的不一致的可能性不大.因此,不一致样例 ers,1991 被分析处理的阈值可取为34. 4 Vapnik V N.The Nature of Statistical Learning Theory (2)支持向量的数目少则可占整个样本量的 [M].NY:Springer-Verlag,1995 4%~5%,.多则可能占整个样本量的40%~50%, 5 Zhang DZ,Yang B R.A new knowledge discovery meth- 因此,当支持向量数目比较大时,有可能由边界 od for saentific and techndogic [J].JUniv Sci Technol Be- jing,2002,9(13):237 Mining Uncommon Information from Inconsistent Samples Based on Support Ve- ctor Machine ZHANG Dezheng,AZIGULI,FENG Honghai,YANG Bingru Information Engineering School,University of Science and Technolgy Beijing,Beijing 100083,China ABSTRACT In current researches of knowledge discovery,inconsistent examples in a decision table are not be analyzed.It is just the place that contradictions would hide interesting and valuable information.A support vector machine based algorithm is proposed to mine kinds of information which hide in inconsistent examples,i.e.,to de- cide whether inconsistency is caused by mistake,the error between a computed or measured value and a true or the- oretically correct value,or missing attributes.Some methods and algorithms which eliminate the inconsistency are presented. KEY WORDS data mining;rough set;support vector machine;inconsistency北 京 科 技 大 学 学 报 年 第 期 “ 优 ” , 一 个 为 “ 良 ” , 可 能 是 由于 文 科 性 质 的科 目 差距 大 , 拉 开 了距 离 也就 是说 , 属 性 之 间具有相 关性 不 一致事例 之 间 的区 别属 性一般 是那 些 与 己 有 属 性 相 关 性 小 的属 性 因 此 , 计 算 与 主 要 属 性距 离大 的属性 , 这 些 属 性 可 能造 成 了二 不 一致 事例 的结 论 不 一 致 如样本 本 身 固有 的性质 能够 和 某 些 条件 属 性共 同作用 , 则可 将 这 些 固有 的性质 作 为可添 加 的条件 属性 如 相 同的药物 组 合对 不 同 的病 人 的效 果 不 一 样 , 可 能 与 病 人 本 身 的身 体 条 件 有 关 , 如性 别 、 年龄 、 身体健康状 况 、 既往病 史等 等 那 些 与 结 论 属 性 依 赖 度 大 的属 性 相 关度 大 的属 性 因 为依 赖 度 大 , 说 明导 出 结论 的充 分 性 大 讨 论 与结 论 依据误 差 理 论 , 由错误 引起 的误 差 粗 差 在重 复 实验 中最 多也 不超 过 , 而 在 非 重 复实 验 中这种情况 的发 生要 远 远低 于这 个 比例 由系 统误 差 、 偶然 误 差 引起 的不 一致 也只 发 生在 两类 边 界 由于 支 持 向量 数 目本 身 一般 很 小 , 再 加 上 由于 误 差 引起 的不 一致 可 能性 很 小 , 所 以 由误 差 导致 的不 一致 的可 能性 不 大 因此 , 不 一 致 样 例 被 分 析 处 理 的 闽值 可 取 为 支 持 向量 的数 目少 则 可 占整 个样 本量 的 一 ‘叼 多 则 可 能 占整 个 样 本 量 的 一 , 因此 , 当支 持 向量 数 目比较 大 时 , 有 可 能 由边 界 上 的点 的误 差 引起 的不 一致要 占一 定数 量 , 对 于 这种情 况 , 用 提 高精度 的方 法排 除不一致有 一 定 的合 理 性 结论 属 性 中的相邻 概 念 是 针对 结论 属性 是 由一 系列 递进 的概念 组成 而 言 的 , 诸 如病情 的 “ 减 轻 ” 和 “ 好 转 ” , 而 此 时病 情 的 “ 好转 ” 和 “ 加 重 ” 是 不相邻 概念 , 是对 立概 念 当结论属 性只 有 两个 概 念 时 , 如 “ 癌 细 胞 ” 和 “ 正 常细 胞 ” , 对 立 概 念 也成 为相 邻概 念 不 相邻概念 之 间 的样例 产 生 不一 致 或 不 在 一 个 边 界 上 的样 例 产 生 的不 一 致 如 果 有 一 定 数 量 重 复 , 则 肯 定 是 由于缺 少 属 性 引起 参 考 文 献 从 , , 吧 , ” 【 , , , , , 吧 , , 白 , , 叮 乙鱿咬 , 乙凭式尸 四 , 尹“ 犯 , , ℃ 以 田 , , , , 知 加