第卷，年第期月北京科技大学学报却一数据发掘

正在加载图片...

D0I:10.13374/i.issn1001-053x.1999.02.058 第21卷第2期北京科技大学学报 Vol.21 No.2 1999年 2月 Journal of University of Science and Technlogy Beijing Apr.1999 数据发掘与数据库中知识发现杨炳儒刘发升北京科技大学信息工程学院，北京100083 摘要对数据发掘发展的研究现状及知识发现系统的研究趋势进行分析与探索，在此基础上从一般框架和特定问题的结合上提出新的构想，关键词数据发掘；数据库；知识库；知识发现系统分类号TP18,TP391 数据发掘(Data Mining)是指对真实数据库 1数据发掘的知识种类 (具有大数据量、不完全性、不确定性、结构性、稀疏性等特征)中数据所隐藏的、先前未知的及具 1.1关联规则(association rules) 有潜在应用价值的信息进行非平凡抽取，这些信关联规则是类似于下列形式的规则：“AA… 息包括知识规则、约束和正则性等等”，通过数据 AAn→B,A…ABn”,这里A(ie{1,…,n}与B,e 发掘，感兴趣的知识、正则性或高层信息可以从 {1,“,m})是属性值的集合，这些属性值来源于数据库相关数据集中抽取出来并从不同角度进数据库中一组相关数据.例如，人们可能发现，从行研究. 一大组交易数据中，有如以下的规则：在一次交数据发掘（或KDD)已经并将继续与犹如机易中，如果一个顾客买一种品牌的牛奶，她（他）器学习、模式识别、数据库、数理统计、人工智能、通常买另一品牌的面包，股票市场也常有关联专家系统知识获取、数据可视化以及高性能计算现象的出现，等领域的交叉研究相联系.统一的目标是从大数 1.2分类规则(classif近cation rules) 据库的原始粗糙的数据中提取高级别的知识，数据发掘的一个重要应用是对巨量数据进在具体的数据发掘的研究领域，数据发掘与机器行分类.数据分类是基于一组数据的某些属性的学习及模式识别交迭在一起；数据发掘集中在寻值进行的，例如，一个汽车经销商需要按对汽车找可解释为有用或者感兴趣的知识的可理解摸的喜好对倾客进行分类以使销售人员知道接近式上.在探索性的数据分析方法中，数据发掘采谁，新型号的汽车目录可以直接邮给那些需要标用了很多统计方法；与统计学的传统方法相比，识特征的顾客以便寻求最大的商业机会山. 数据发掘更多地采用模型抽取方法2~引.数据发 l.3数据聚类(data clustering) 掘是为了面向应用领域的研究.对特定的应用领它的基本思想是，在对数据进行分析的过程域，特定的数据发掘技术将会涉及到各种不同的中，在考虑数据间的“距离”的同时，更侧重考虑领域，开拓特定的研究方法的应用，某些数据间具有类的共同内涵基本上，数据聚类近年来，随着大型专家系统与复杂巨系统研是对1组数据进行分组，这种分组基于如下的原究的深人发展，KDD(Knowledge Discovery in 理：最大的组内相似性和最小的组间相似性. Databases)的扩展性研究势在必行.为此本文提 1.4序列规则(sequence rules,sequential 出一类构建在数据库与知识库综合基上的知识 atterns) 发现系统（视为KDD的扩体）的新构想，并对其可用如下的例子描述序列规则（或称为时序应用进行研究，模式)：一个顾客租看影片“Star Wars',然后租 “Empire Strikes Back”,再租“Return of the 1998-1003收稿杨炳儒男，54岁，数授，博导 Judi”;注意到这些租借事物的发生不一定是连着 *国家基金会资助对外交流与合作项目(N0.69950120130) 的.像这样一次事件的发生会导致某些事件的相第卷，年第期月北京科技大学学报却一数据发掘与数据库中知识发现杨炳儒刘发升北京科技大学信息工程学院，北京摘要对数据发掘发展的研究现状及知识发现系统的研究趋势进行分析与探索，在此基础上从一般框架和特定问题的结合上提出新的构想关键词数据发掘数据库知识库知识发现系统分类号，数据发掘是指对真实数据库具有大数据量、不完全性、不确定性、结构性、稀疏性等特征中数据所隐藏的、先前未知的及具有潜在应用价值的信息进行非平凡抽取，这些信息包括知识规则、约束和正则性等等川通过数据发掘，感兴趣的知识、正则性或高层信息可以从数据库相关数据集中抽取出来并从不同角度进行研究数据发掘或已经并将继续与犹如机器学习、模式识别、数据库、数理统计、人工智能、专家系统知识获取、数据可视化以及高性能计算等领域的交叉研究相联系统一的目标是从大数据库的原始粗糙的数据中提取高级别的知识在具体的数据发掘的研究领域，数据发掘与机器学习及模式识别交迭在一起数据发掘集中在寻找可解释为有用或者感兴趣的知识的可理解模式上在探索性的数据分析方法中，数据发掘采用了很多统计方法与统计学的传统方法相比，数据发掘更多地采用模型抽取方法〔卜’ 数据发掘是为了面向应用领域的研究对特定的应用领域，特定的数据发掘技术将会涉及到各种不同的领域，开拓特定的研究方法的应用近年来，随着大型专家系统与复杂巨系统研究的深人发展，肋肠卿的扩展性研究势在必行为此本文提出一类构建在数据库与知识库综合基上的知识发现系统视为的扩体的新构想，并对其应用进行研究一一收稿杨炳儒男，岁，教授，博导国家基金会资助对外交流与合作项目数据发掘的知识种类关联规胜关联规则是类似于下列形式的规则 “ ，二入凡，“ ‘ 二 “ 军，这里燕汇卜一。与乓仃‘ ， … ，是属性值的集合，这些属性值来源于数据库中一组相关数据例如，人们可能发现，从一大组交易数据中，有如以下的规则在一次交易中，如果一个顾客买一种品牌的牛奶，她他通常买另一品牌的面包川股票市场也常有关联现象的出现分类规则，，一数据发掘的一个重要应用是对巨量数据进行分类数据分类是基于一组数据的某些属性的值进行的例如，一个汽车经销商需要按对汽车的喜好对顾客进行分类以使销售人员知道接近谁，新型号的汽车目录可以直接邮给那些需要标识特征的顾客以便寻求最大的商业机会川数据聚类一它的基本思想是，在对数据进行分析的过程中，在考虑数据间的 “ 距离 ” 的同时，更侧重考虑某些数据间具有类的共同内涵基本上，数据聚类是对组数据进行分组，这种分组基于如下的原理最大的组内相似性和最小的组间相似性川序列规则一，可用如下的例子描述序列规则或称为时序模式一个顾客租看影片 “ ” ，然后租 “ ，再租 “ ” 注意到这些租借事物的发生不一定是连着的像这样一次事件的发生会导致某些事件的相 DOI ：10．13374／j ．issn1001－053x．1999．02．058

向下翻页>>

点击下载：数据发掘与数据库中知识发现