《数据挖掘中的 数学方法》 1.数据挖掘简介 2.非线性规划及其对偶理论 3.支持向量机理论、算法与应用
《数据挖掘中的 数学方法》 1. 数据挖掘简介 2. 非线性规划及其对偶理论 3. 支持向量机理论、算法与应用
数据挖掘概念定义 数据挖掘-从大量数据中寻找其规律,提取感 兴趣的、有用的或潜在有用的信息的技术,是 统计学、数据库技术和人工智能技术的综合。 是多学科交叉的 统计学、人工智能、机器学习、 数据 库技术、最优化技术 数据挖掘与KDp(Knowledge Discovery in Databases) 知识发现 3
3 一、数据挖掘概念----定义 数据挖掘--从大量数据中寻找其规律,提取感 兴趣的、有用的或潜在有用的信息的技术,是 统计学、数据库技术和人工智能技术的综合。 •是多学科交叉的 统计学、人工智能、机器学习、数据 库技术、最优化技术 数据挖掘与KDD(Knowledge Discovery in Databases ) 知识发现
数据挖掘的原由 数据采集技术越来越成熟! 国民经济和社会的信息化 社会信息化后,社会的运转是软件的运转 •社会信息化后,社会的历史是数据的历史 政府提出:“信息化”和“发展软件产业” 数据库越来越大 数据挖掘 可怕的数据 有价值的知识透
4 数据挖掘的原由 国民经济和社会的信息化 •社会信息化后,社会的运转是软件的运转 •社会信息化后,社会的历史是数据的历史 政府提出:“信息化”和“发展软件产业” 数据挖掘 数据库越来越大 可怕的数据 有价值的知识 数据采集技术越来越成熟!
苦恼:淹没在数据中;不能制定合适的决策! 知识 决策 数据 金融 目标市场 资金分配 政府 POS. 第 贸易选择 在哪儿做广告 人口统计 模型 销售的地理位置 生命周期 关联规则 疾病数据 序列 数据爆炸,知识贫乏
5 ——数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据 知识 决策 模式 趋势 事实 关系 模型 关联规则 序列 ….. 目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置 …… 金融 经济 政府 POS. 人口统计 生命周期 疾病数据 ………
数据挖掘的技术 技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的 规律 数据挖掘技术 关联分析 序列模式 分类(预言) 聚集(聚类) 异常检测 6
6 数据挖掘的技术 • 技术分类 – 预言(Predication):用历史预测未来 – 描述(Description):了解数据中潜在的 规律 • 数据挖掘技术 – 关联分析 – 序列模式 – 分类(预言) – 聚集(聚类) – 异常检测
用户界面 用户 知识 模式评估 挖坭管理器 4 知识率 效端挖掘引攀 4 数据定义 挖据向导 模式筛选 数据库或教据仓 库眼务器 数据清理、集成和过择 数据预处理 挖掘内核 模式表达 挖掘算法 与解释 数据库 数据仓库 万推网 其他信息储 存库 图1了典型数据挖掘系统的结构 原始数据 抽取的正确 模式集合 可靠的数据 图3一个数据挖掘系统原型 http://baike.baidu.com/view/7893.htm 数据挖掘(Data Mining)是通过分析每个数据,从大量数 据中寻找其规律的技术,主要有数据准备、规律寻找和规律 表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分 类分析、异常分析、特异群组分析和演变分析等。 7
7 • http://baike.baidu.com/view/7893.htm • 数据挖掘(Data Mining)是通过分析每个数据,从大量数 据中寻找其规律的技术,主要有数据准备、规律寻找和规律 表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分 类分析、异常分析、特异群组分析和演变分析等
日3分回 输出 (检索结果 (Web检索) 挖掘) Web 检索 有用 结果 知识 新的检索线索) 数据挖掘一般是指从大量的资料中自动搜索隐藏于其中的有着特殊关 联性C属于Association rule learning)的信息的迂程。资料挖 掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、 机器兰习、,专家系统(依靠过去的经验法则)和模式识别等诸多方法 来实现上述目标。 数据挖掘一维基百科,自由的百科全书 8
8 • 数据挖掘一般是指从大量的资料中自动搜索隐藏于其中的有着特殊关 联性(属于Association rule learning)的信息的过程。资料挖 掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、 机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法 来实现上述目标。 • 数据挖掘——维基百科,自由的百科全书
数据挖掘问题的数学表述 我们用下面三个部分来描述从样本学习的一般模型(图1.1): (1)产生器(G),产生随机向量x∈R,它们 是从固定但未知的概率分布函数F(x)中独立抽 取的, (2)训练器(S),对每个输入向量x返回 一个输出值y,产生输出的根据是同样固定但未 知的条件分布函数DF(ylx)。 1.1 根据样本学习的一个模型。在学习 (3)学习机器(LM),它能够实现一定的函 过程中,学习机器LM观察数据对 (x,y)(训练集),在训练之后,学习 数集f(x,a),a∈A,其中A是参数集合②。 机器必须对任意输人x给出输出 学习的问题就是从给定的函数集f(x,a), y,学习的目标是能够给出输出y, α∈A中选择出能够最好地逼近训练器响应的函 使之接近训练器的响应y 数。这种选择是基于讽练集的,训练集由根据联 合分布F(x,y)=F(x)F(yx)抽取出的(个独立同分布(i.i.d.)观測 (x1,y1),…,(,y (1-1) 组成。 9
9 数据挖掘问题的数学表述
四、数据挖掘应用 长Dnu6ei TM 调查报告(2002.6.3-6.16) Poll Data mining tools you regularly use:[967 choices,551 voters] SPSS Clementine (128) 13% weka〔101) 1☐% SAS〔100) 10% CART/MARS (89) 9% SPSS/AnswerTree (76) 8% SAS Enterprise Miner (67) 7% Other commercial tools (65) 7% Other free/open-source tools (57) 6% MATLAB (52) 5% Microsoft SQLServer/Excel (40) 4% Insightful Miner (36) 4% IBM Intelligent Miner (35) 4% KXEN (35) 4% C4.5‘C4.829) 39% Angoss (26) 13% Megaputer Polyanalyst (10) ■1% Neuralware (8) ■1% Oracle Suite (Darwin)(8) 1% Quadstone (3 10.3% ThinkAnalytics (2) ■0.2%
10 四、数据挖掘应用 调查报告(2002.6.3-6.16)
数据挖掘软件的现状 2001/5/14一200115/24(实际) 2001/11126一2001/12/9(预测) Poll Poll Where do you plan to use data mining in 2002?(choose several)[198 votes,433 choices] Where did you apply data mining in the past year:[266 votes total] Banking (56) 13% Banking(45) 17% Biology/Genetics36) 18% Biology/Genetics 22) 8% Direct Marketing/Fundraising(47) 11% eCommerce/Web(43) eCommerce/Web(41) 15% 10% Entertainment 3) 11% Fraud Detection (21) 8% Fraud Detection(46) 11% Insurance(17) 6% Insurance 27) 6% Investment/Stocks(11) ☐4% Investment/Stocks (16) 4% Manufacturing(18) ■4% Pharmaceuticals(13) 5% Pharmaceuticals 24) 16% Retail (17) ■6% Retail (27) 6% Science Data(20) 8% Science 25) 6% Telecom(30) 11% Security ■2% Telecommunication(34) 8% Other(29) 11% Other (23) 5%
11 数据挖掘软件的现状 2001/5/14——2001/5/24(实际) 2001/11/26——2001/12/9(预测)