正在加载图片...
·380· 北京科技大学学报 2003年第4期 知识发现过程中的几个主要步骤的实现过 然语言的形式表示出来. 程详述如下: 同一般的关联规则发现算法不同的是本文 (1)数据预处理.根据所采用的知识发现机 所提到的算法是发现因关联类算法,如气体的物 制,即验证机制或发现机制,对现实数据库D中 理变化过程中的温度、压力以及气体体积之间的 的属性值进行标准化,形成用于知识发现的数据 关系.由该算法所获得的知识反映客观事物的内 库D'.对于单一语言场,序偶P={<,>}表示原 在联系,属于深层次的知识. 因状(变)态空间中的样本值()和结果状(变)态空 为能够说明算法的正确性和有效性,以北京 间中的样本值().原因的样本值(k=1,2,,)根 某地区相关的5个气象台站16a的气象观测资 据下式进行标准化,可得到因状(变)态向量 料作为实例进行了时序因果关联规则的发现.天 a=-\A: (5) 气系统是复杂的,其复杂性不仅表现在天气过程 其中,为落在第i个区间的输入数据,to为第i个 的复杂性也表现在气象数据本身的复杂性上,通 区间的中点数据,(,为第i个区间的长度,A,为第 常有些气象资料是无法用数值测量或描述,如天 i个区间中的因状(变)态标准向量,A为依t的 气现象、天气系统、沙尘暴、云量等,它们只能有 落点而定的左邻或右邻区间中的因状(变)态标 程度上的差异,有些资料虽然能够用数值描述, 但通常也用粗略模糊的方式进行表示,如风速、 准向量,这样可得到at. (2)判定原因向量的状(变)态归属.判定原因 降水等.可以看出,气象数据具有典型的随机和 状(变)态向量a:所属因状(变)态类型,如A 模糊不确定性,气象数据中各个因子之间的关系 (k=1,2,3,4,5).由下式计算a与各因状(变)态标 也十分复杂,因此气象数据之间的关系可采用本 准向量A的测度d,取最小者a:为归属的因状 文提出的知识发现算法来进行研究. 影响气候变化的大气环流系统、下垫面热力 (变)态类型 3 状况及天文因子等环境因素十分复杂,因此,选 du(a,A.)=Eua-uA! (6) P 择物理意义明确的因子和分析其相互间的关系, 其中4a与A分别为其各自对应的分量值. 是人们致力探索的关键问题.虽然引起灾害性气 (3)构造知识矩阵.原因状(变)态向量通过自 候(比如汛期旱涝)的影响因子进行了分析,但由 组织方式找到相应的知识矩阵,通过推理,计算 于气候预测学科本身的难度,有的联系还没有完 其可能的结果状(变)态向量,并确定其所属结果 全揭示出来.由于气候的突变性,有相当的物理 状态类型o 信号作为预报因子和预报量的相互关系是随年 在标准样本空间中,首先根据因果状(变) 代变化的.表现在物理统计学方法上,预报因子 态和抽取的原因状(变)态向量,由基础知识库 是时间的函数,是动态因子,通过气象数据的数 {M,,M}求得原因状(变)态向量对应的知识 据挖掘与知识发现,可以考虑大气、海洋因子对 矩阵Mmm(i1,2,3,4,5:i=1,2,3,4,5:i-1,2,3,4,5). 要素场的影响,也考虑了要素场自身变化特征, (4)计算可能的结果状(变)态向量.由原因状 短期要素场变化,除了受大气环流系统演变 (变)态向量和其相应的知识矩阵M,根据下式 规律的制约,以及海洋下垫面和海气相互作用的 求得可能的结果状(变)态向量 影响外,还与天文因子有密切关系,分析计算中 SwueaMr (7) 所考虑的因子场具体构成如下.(1)环流因子共69 (⑤)因果关联规则的获取,标准化原因状(变) 项:包括北半球各类副热带环流系统特征量45 态所对应的结果状态向量S,计算其与各个结果 项:北半球各类极涡系统特征量12项:大西洋欧 状(变)态向量的测度并判定其所属类型,计算S 洲环流型3项:北半球中纬度西风带环流特征指 与S的距离,并在设定的阙值下判定二者是否匹 数4项:东亚槽特征量2项:西藏高原特征指数2 配,如果匹配说明因果关联规则A·S成立, 项:冬春季冷空气活动因子1项.(2)太阳黑子相 计算所获取的规则得支持度、可信度和因果 对数,黑潮指数等.1951~1996年北京汛期(79 关联强度.若规则的支持度、可信度和因果关联 月)11站雨量资料,雨量场自身变化因子等, 强度分别满足设定的阙值,则此因果关联规则被 在知识发现过程中,对96项因子10a(1986- 接受,否则拒绝.将所获取的因过关联规则以自 1995年)的数据进行了分析计算.先按正负距平北 京 科 技 大 学 学 报 年 第 期 知 识 发 现 过 程 中 的 几 个 主 要 步 骤 的 实 现 过 程 详 述 如 下 数 据 预 处 理 根据 所 采 用 的知 识 发 现 机 制 , 即验 证 机 制 或 发 现 机 制 , 对 现 实数 据 库 中 的属 性值 进行 标准 化 , 形 成 用 于 知 识 发 现 的数 据 库 ’ 对 于 单 一 语 言场 , 序 偶尸 二 , 户 表 示 原 因状 变 态 空 间 中 的样 本值 和 结果 状 变 态 空 间 中 的样本 值 原 因 的样 本值 二 , , … 川根 据 下 式进 行 标 准 化沙,, 可 得 到 因状 变 态 向量 一 生二兰司 刀 全五 ,。 一 法一 皿云当 刊 邻 也 到 其 中 , 武为落 在 第 个 区 间 的输入 数 据 , 肠 为第 个 区 间 的 中点数据 , 武为第 个 区 间 的长 度 , , 为第 个 区 间 中 的 因状 变 态 标 准 向量 , 翅邻 为 依 的 落 点而 定 的左 邻 或 右 邻 区 间 中的 因状 变 态 标 准 向量 , 这 样 可 得 到 判 定 原 因 向量 的状 变 态 归属 判 定 原 因 状 变 态 向量 ’ 所 属 因状 变 态 类 型 , 如 态 二 , , , , 由下 式计 算 与各 因状 变 态 标 准 向量 , 的测 度 琉 , 取 最 小者 为 归属 的 因 状 变 态类 型 、 、 , ‘卜三砂 一 、 川 其 中声 与州夕 ,分 别 为其 各 自对 应 的分 量 值 构造 知 识 矩 阵 原 因状 变 态 向量 通 过 自 组 织 方 式 找 到 相 应 的知 识 矩 阵 通 过 推 理 , 计 算 其 可 能 的结 果 状 变 态 向量 , 并 确 定 其所 属 结果 状 态 类 型 在标 准 样 本 空 间 中 , 首 先 根 据 因 果 状 变 态 和 抽 取 的原 因状 变 态 向量 , 由基 础 知 识 库 斌 ,… 泳几 求 得 原 因状 变 态 向量 对 应 的知 识 矩 阵从 、 , 、 ,, 任 , , , , ‘, , , , , “ , , , , , 计 算可 能 的结 果 状 变 态 向量 由原 因状 变 态 向量 和 其 相 应 的知 识 矩 阵麟,’ , 根据 下 式 求 得 可 能 的 结 果 状 变 态 向量 又。 全 · 鱿。 , 因果 关 联 规 则 的获 取 标 准 化 原 因状 变 态所 对 应 的结果 状 态 向量及 ,, 计 算其 与各 个 结果 状 变 态 向量 的测 度 并 判 定其 所 属 类 型 , 计 算及 , 与况 ’ 的距 离 , 并在 设 定 的 阂值 下 判 定 二 者 是 否 匹 配 , 如 果 匹 配 说 明因 果 关 联 规 则 属一 成 立 计 算所 获 取 的规 则 得 支 持度 、 可 信 度 和 因 果 关联 强度 若 规 则 的支 持 度 、 可 信 度 和 因果 关 联 强度 分 别 满 足 设 定 的 闽值 , 则 此 因果 关 联规 则被 接 受 , 否 则 拒 绝 将 所 获 取 的 因过 关 联 规 则 以 自 然 语 言 的形 式表 示 出来 同一 般 的 关 联 规 则 发 现 算 法 不 同 的 是 本 文 所 提 到 的算 法 是 发 现 因关 联类算法 , 如气 体 的物 理变 化过程 中的温度 、 压 力 以及 气 体体积 之 间 的 关 系 由该 算法 所 获得 的知识 反 映客观 事物 的 内 在 联 系 , 属 于 深 层 次 的知 识 为 能够 说 明算 法 的正确 性和 有 效性 , 以北 京 某 地 区 相 关 的 个 气 象 台站 的气 象观 测 资 料 作 为 实例 进 行 了时序 因果 关联规 则 的发现 天 气系统 是 复杂 的 , 其 复杂 性不仅表现在天 气过程 的复 杂 性 也表 现 在 气 象 数 据 本 身 的复杂性 上 通 常 有 些 气 象 资料 是 无 法用 数值测 量 或 描述 , 如 天 气 现 象 、 天 气 系 统 、 沙尘 暴 、 云 量 等 , 它 们 只 能有 程 度 上 的差 异 , 有些 资料 虽 然 能够用 数值 描 述 , 但 通 常 也 用 粗 略模糊 的方 式进 行 表 示 , 如 风速 、 降水等 可 以看 出 , 气 象 数据 具有典型 的随机和 模 糊 不确 定性 , 气象 数据 中各个 因子之 间 的关 系 也 十 分 复 杂 , 因此气 象数据 之 间 的关系 可采用本 文 提 出 的知 识 发现 算法 来进 行 研 究 影 响气 候 变 化 的大气 环 流 系统 、 下 垫 面 热 力 状 况 及 天 文 因 子 等环 境 因 素 十分 复杂 , 因此 , 选 择 物 理 意义 明确 的因子 和 分 析其相 互 间 的关系 , 是 人 们 致 力探 索 的关键 问题 虽然 引起 灾害性气 候 比 如 汛 期 早 涝 的影 响 因 子进 行 了分析 , 但 由 于 气 候 预 测 学科 本 身 的难度 , 有 的联 系还 没 有完 全 揭 示 出来 由于 气 候 的突变 性 , 有 相 当 的物理 信 号 作 为 预 报 因 子 和 预 报 量 的相 互 关 系是 随 年 代变 化 的 表现 在 物理 统计 学方法 上 , 预 报 因子 是 时 间 的 函 数 , 是 动 态 因子 通 过气 象 数据 的数 据 挖 掘 与 知 识 发 现 , 可 以考 虑 大 气 、 海 洋 因子对 要 素场 的影 响 , 也考 虑 了要 素场 自身变 化特 征 短 期 要 素场 变 化 , 除 了受 大气 环 流 系统演变 规 律 的制 约 , 以及 海洋 下 垫 面 和 海气 相 互 作用 的 影 响外 , 还 与天 文 因子 有密 切 关系 分 析计 算 中 所考虑 的 因子场 具体构成 如下 环 流 因子共 项 包 括 北 半 球 各类 副 热 带 环 流 系 统特 征 量 项 北 半 球 各类 极 涡 系统特 征 量 项 大 西 洋 欧 洲环 流 型 项 北 半球 中纬 度 西 风 带环 流特征 指 数 项 东亚 槽特 征 量 项 西 藏 高原特 征 指 数 项 冬 春 季冷 空 气 活 动 因子 项 太 阳 黑 子 相 对 数 , 黑 潮 指数 等 一 年 北 京 汛 期 一 月 站 雨 量 资料 , 雨 量 场 自身变 化 因子 等 在 知 识 发 现 过 程 中 , 对 项 因子 年 的数 据 进 行 了分 析 计 算 先 按 正 负距 平
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有