数据分析与数据挖掘 一、绪论 主讲教师:蓝天
数据分析与数据挖掘 一 、绪 论 主讲教师:蓝天
机器学习与数据挖掘 数据挖掘 数据分析技术 数据管理技术 机器学习 数据库
机器学习与数据挖掘
机器学习是什么
机器学习是什么
不同人眼里的“机器学习” Machine Learning what society thinks I what my friends think what my parents think 00 I do I do 4f-av+外 保2v7 from scipy inport 3VM w-Sox.Eon-e )-2s+ow0 --吴-(r4ay4a0)-华了( Bah%=∑,,h what other programmers what I think I do what I really do think I do
不同人眼里的“机器学习
机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键 经典定义:利用经验改善系统自身的性能 经验→ 数据 随着该领域的发展,目前主要研究智能数据分析的理论和算法,并已成 为智能数据分析技术的源泉之 图灵奖连续授予在该方面取得突出成就的学者 2011 Leslie Valiant 年度 Judea Pearl 2012 年度 (1949-) (1936-) (Harvard Univ.) (UCLA) “计算学习理论”奠基人 “图模型学习方法”先驱
机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键
机器学习 机器学习 (Machine Learning) 究竟是什么东东? 看个例子一
机器学习 机器学习 (Machine Learning) 究竟是什么东东? 看个例子
66 文献筛选” 的故事 在“循证医学” (evidence-based medicine)中,针对特 定的临床问题,先要对相关研究报告进行详尽评估 查询PubMed以获 取候选摘要 PubMed:-23 million 人工找出值得全文审 读的文章 Retrieved with Search:5000 Deemed Relevant:100 [C.Brodley et al.,AI Magazine 2012]
“ 文献筛选” 的故事 [C. Brodley et al., AI Magazine 2012] 在“ 循证医学” (evidence-based medicine)中,针对特 定的临床问题,先要对相关研究报告进行详尽评估 查询 PubMed 以获 取候选摘要 人工找出值得全文审 读的文章
66 文献筛选”的故事 在一项关于婴儿和儿童残疾的研 究中,美国Tuftsl医学中心筛选 了约33,000篇摘要 a portion of the 33,000 abstracts 尽管ufts医学中心的专家效率 很高,对每篇摘要只需30秒钟, 但该工作仍花费了250小时 每项新的研究都要重复 这个麻烦的过程! 需筛选的文章数在不断显著增长!
“ 文献筛选” 的故事 在一项关于婴儿和儿童残疾的研 究中, 美国Tufts医学中心筛选 了约 33,000 篇摘要 尽管Tufts医学中心的专家效率 很高,对每篇摘要只需 30 秒钟, 但该工作仍花费了 250 小时 每项新的研究都要重复 这个麻烦的过程! 需筛选的文章数在不断显著增长!
文献筛选”的故事 为了降低昂贵的成本,Ufts医学中心引入了机器学习技术 邀请专家阅读少量摘要,标记 为“有关”或“无关” 对是否“有关” 进行预测 分类模型 机器只需阅读50篇摘要,系统的自动筛选精度就达到93% 机器阅读1,000篇摘要,则系统的自动筛选敏感度达到95% (人类专家以前需阅读33,000篇摘要才能获得此效果)
为了降低昂贵的成本, Tufts医学中心引入了机器学习技术 邀请专家阅读少量摘要,标 记 为 “有关” 或 “ 无 关 ” 对是否 “ 有 关 ” 进行预测 分类模型 “ 文献筛选” 的故事 机器只需阅读 50 篇摘要,系统的自动筛选精度就达到 93% 机器阅读 1,000 篇摘要,则系统的自动筛选敏感度达到 95% (人类专家以前需阅读 33,000 篇摘要才能获得此效果)
典型的机器学习过程 使用学习算法(learning algorithm) 类别标记 训练数据 (label) 训练 模型 色泽 根蒂 敲声 好瓜 青绿 蜷缩 浊啊 是 决策树,神经网络,支持向量机, 马黑 蜷缩 浊响 是 Boosting,贝叶斯网, … 青绿 硬挺 清脆 否 鸟黑 稍蜷 沉闷 否 ?=是 新数据样本 (浅白,蜷缩,浊响,?) 类别标记 未知
决策树,神经网络,支持向量机, Boosting,贝叶斯网,…… 训练数据 模型 色泽 青绿 乌黑 青绿 根蒂 蜷缩 蜷缩 硬挺 敲声 浊响 浊响 清脆 好瓜 是 是 否 乌黑 稍蜷 沉闷 否 (label) 训练 ?= 是 新数据样本 (浅白, 蜷缩, 浊响, ?) 类别标记 未知 典型的机器学习过程 使用学习算法(learning algorithm) 类别标记