·566· 北京科技大学学报 2004年第5期 图2中的A:和B,由于人们认识上的差距,即模糊 通过增加新的条件属性,使得不相容的决策 化概念上的错误,以及观察、测量上的误差,使得 问题变得相容、一致,使获得数据中隐含的新的 这些不一致样例的条件属性取值全相同.还有一 信息、知识.但是,那些不一致病例有可能通过增 种就是不一致样例不在两类的边界(如图2中的 加临床症状观察范围即增加条件属性来排除不 A2点和B:点),或所在的两类根本不是相邻类(如 一致情况:而那些又不是由于缺少条件属性引起 图2中的C,和B),.这些不一致样例由于不相邻, 的不一致现象,又怎样通过提高观察精度来消除 所以不可能由于误差引起不一致,只可能是由于 不一致现象呢? 缺少一个或几个条件属性引起不一致,而这些条 3.3用支持向量机判别不一致事例所在类别的 件属性值肯定不同,这些属性就成了区分不一致 位置 事例的依据. 判断不一致样例距离某一类的中心远近并 不能说明其属于或不属哪那一类,而应该看这个 数据在某一类的中心上还是边界上,因为支持向 量在两类数据的边界上,可以通过支持向量机判 定样例是否远离支持向量机决策平面来决定样 例是否在两类边界上, 利用支持向量机训练时,不让不一致样例参 ●C, 加训练,因为一般它们占的比例很小,并且还要 图2不一致样例可能的相互关系 将它们用来测试,以确定它们的类别.即信息表 Fig.2 Relationship in inconsistent case 中给出不一致样例两个或多个类别,无从根据现 3.2判别不一致事例类型的意义 有数据集认定它应该属于哪一类,因此需要用分 对于重复很少的不一致现象,因为没有统计 类手段去判别它在现有数据集的条件下属于哪 学上的意义,以及多属偶然现象,而且多属于人 一类,分类时看这些样例处在哪一类的什么位 为错误造成,因此不予分析处理,即不一致事例 置,也就是让不一致样例作为待测样本,如果不 大于某数量时才进行分析.这样可以节省的精 一致样本通过分类发现在某类的边界上,则样本 力,并提高分析问题的准确性. 因为不属于另一类,所以也处于另一类的边界 不论是决策表中的样本互相有冲突还是待 上.由条件属性值或结论属性值的微小误差引起 识样本和决策表中的样本有冲突,不外乎上述提 的不一致造成的矛盾或不相容并不严重,是一种 到的前两种情况,即条件属性不充分,或人为误 正常的测量观察误差引起的.可以寻找哪些属性 差导致的不精确或错误,如果能区分出这两种情 值有误差,通过提高精确度来排除不一致现象, 况,对进一步对信息表进行预处理很有帮助.如 如果将不一致样例作为待识样本,通过分 果是条件属性不充分,就着眼于增加条件属性; 类,发现它是远离某一类边界的点,即远离分类 如果是测量和观察的不精确,就着眼于如何提高 面一定阈值的点.则这将引起较大的误差、矛盾, 属性值的精度, 肯定是由于缺少属性引起的. 比如,在非典型性肺炎的诊断中,具有相同 样例处在两类边界但属于不同的类,有可能 症状的病人,可能最后的诊断结果截然相反:一 出现在诸如疾病的早期诊断等情形中,由于指标 个是非典病人,一个被排除.这就是一种不一致 数值都小,如低烧,咳嗦症状轻,肺部阴影少等, 现象.如果有一定重复,那么,这种不一致现象的 给诊断是否得病或分成不同的类造成困难.但找 解决将对临床有重大意义.这可启发医务人员和 到导致不同疾病的病因对于人类重大疾病的早 研究人员去探究到底缺少哪些诊断因素(条件属 期诊断有重大意义. 性),而这些因素(条件属性)决定了非典型性肺 3.4不一致样例所含信息类型判别算法 炎的确诊.也就是说,缺少的属性是结论的充分 输入:一决策表S=(U,C,D,V,),其中U是论 性属性.或者增加哪些措施,可以使得检验更加 域:C,D分别为条件和决策属性集:V=UV。,其 准确,以体现出样例之间的区别,而不至于混淆, 中,'。是属性a∈A的值域:A=CUD是属性的集 造成不一致样例. 合;∫是信息函数.· 北 京 科 技 大 学 学 报 年 第 期 图 中 的 和 , 由于 人们 认 识上 的差距 , 即模糊 化 概念 上 的错 误 , 以及观 察 、 测 量 上 的误 差 , 使得 这 些 不一致样例 的条 件属 性 取 值 全 相 同 还 有一 种就 是不 一 致样 例 不 在 两 类 的边 界 如 图 中 的 点和 点 , 或 所 在 的两类 根 本 不 是 相 邻类 如 图 中 的 和及 , 这些 不 一 致样 例 由于 不 相邻 , 所 以不 可 能 由于误 差 引起 不 一致 , 只 可 能 是 由于 缺 少一 个或 几个条 件 属性 引起 不一 致 , 而 这 些 条 件属 性值 肯 定不 同 , 这些 属 性就 成 了区 分 不一 致 事例 的依 据 图 不 一 致样例 可 能的相 互 关系 恤 犯 判 别 不 一 致 事例 类型 的意 义 对 于 重 复很 少 的不 一 致 现 象 , 因 为没 有 统 计 学 上 的意义 , 以及 多属 偶然 现 象 , 而 且 多属 于 人 为错 误 造 成 , 因此 不 予 分 析 处 理 , 即不 一 致 事 例 大 于 某 数 量 时才 进 行 分 析 , 这 样 可 以节 省 的精 力 , 并提 高分 析 问题 的准 确 性 不 论 是 决 策 表 中 的样 本 互 相 有 冲 突 还 是 待 识样 本和 决策 表 中 的样本 有 冲 突 , 不外 乎 上述 提 到 的前 两 种 情 况 , 即条 件 属 性 不 充 分 , 或人 为误 差 导致 的不精 确或 错 误 如 果 能 区分 出这 两 种情 况 , 对进 一 步对 信 息 表 进 行 预 处 理 很 有 帮助 如 果是 条件 属 性 不 充 分 , 就 着 眼 于 增 加 条件 属 性 如 果 是测 量 和 观 察 的不精确 , 就着 眼 于 如何提 高 属 性 值 的精 度 比如 , 在 非 典 型 性肺 炎 的诊 断 中 , 具 有 相 同 症 状 的病 人 , 可 能最 后 的诊 断 结 果截 然 相 反 一 个是非 典病 人 , 一 个被 排 除 这 就 是 一 种 不 一 致 现 象 如 果 有 一 定 重 复 , 那 么 , 这种不 一致 现 象 的 解 决将对 临床 有 重大 意义 这 可 启 发 医 务人 员和 研 究人 员去探 究到底 缺 少 哪 些 诊 断 因素 条件 属 性 , 而 这 些 因 素 条 件属 性 决定 了非 典 型 性肺 炎 的确 诊 也 就 是 说 , 缺 少 的属 性 是 结论 的充 分 性 属性 或 者 增 加 哪 些 措 施 , 可 以使得 检 验 更 加 准确 , 以体 现 出样例 之 间 的区 别 , 而 不至 于 混淆 , 造 成 不 一 致 样 例 通 过 增 加 新 的条件 属 性 , 使 得 不 相容 的决策 问题 变 得相 容 、 一 致 , 使 获得 数 据 中隐含 的新 的 信息 、 知 识 但是 , 那 些 不 一致病 例 有可 能通过 增 加 临床 症 状 观 察 范 围 即 增 加 条 件 属 性 来 排 除 不 一致情 况 而那 些又 不 是 由于缺 少 条件属 性 引起 的不一 致现 象 , 又 怎样通 过提 高观 察精度 来消除 不 一 致现 象 呢 用 支持 向量机 判 别 不 一 致 事例 所 在 类别 的 位 里 判 断 不 一 致 样 例 距 离 某 一 类 的 中心 远 近 并 不 能说 明其 属 于 或 不属 哪 那 一类 , 而 应 该看这 个 数 据在某 一类 的 中心上 还 是 边 界上 , 因为支持 向 量 在 两类 数据 的边 界上 , 可 以通 过支持 向量 机 判 定 样例 是 否 远 离 支 持 向量 机 决 策 平 面来 决 定 样 例 是 否 在 两类 边 界 上 利用 支 持 向量 机 训 练 时 , 不 让 不一 致样例 参 加 训 练 , 因 为一 般它 们 占的 比例 很 小 , 并且 还 要 将它 们 用 来 测 试 , 以确 定 它 们 的类 别 即信 息表 中给 出不 一致 样 例 两 个 或 多个类 别 , 无从根 据现 有数 据 集 认 定它应 该属 于 哪 一类 , 因此 需要用 分 类 手 段 去 判 别 它 在 现 有 数 据 集 的条 件 下 属 于 哪 一 类 分 类 时看 这 些 样 例 处 在 哪 一 类 的什 么 位 置 , 也 就 是让 不 一 致 样例 作 为待 测 样 本 如 果 不 一致样本 通 过分 类 发现 在 某类 的边 界上 , 则样 本 因 为 不 属 于 另 一 类 , 所 以也 处 于 另一 类 的边 界 上 由条件 属 性值 或 结论 属 性值 的微 小误 差 引起 的不 一致 造 成 的矛盾 或 不 相 容 并不严 重 , 是 一 种 正 常 的测 量观 察 误差 引起 的 可 以寻 找哪 些属 性 值 有 误 差 , 通 过提 高精 确度 来排 除不 一致现 象 如 果 将 不 一 致 样 例 作 为 待 识 样 本 , 通 过 分 类 , 发 现 它 是远 离 某一类 边 界 的点 , 即远 离分 类 面 一 定 阐值 的点 则这将 引起 较大 的误 差 、 矛盾 , 肯 定 是 由于 缺 少属 性 引起 的 样 例 处在 两类边 界但 属 于 不 同的类 , 有 可 能 出现 在诸 如疾 病 的早期 诊 断等情形 中 , 由于指标 数值 都 小 , 如 低 烧 , 咳 嗦 症 状 轻 , 肺 部 阴影 少等 , 给 诊 断是 否得病 或 分成 不 同 的类造成 困难 但 找 到 导 致 不 同疾 病 的病 因对 于 人 类 重 大疾 病 的早 期 诊 断有 重 大 意 义 不 一 致 样 例 所 含信 息 类型 判别 算法 输入 一 决策表 , , , ,力 , 其 中 是 论 域 , 分 别 为 条件 和 决策 属 性 集 “ 代 , 其 中 , 是 属 性 任 的值 域 是 属 性 的集 合 厂是 信 息 函 数