机器学习研宪进展」 王班 周志华 中国科学院自动化研完所 南京大学计算机科学与技术系 jue.wang@mail.ia.ac.cn zhouzh@nju.edu.cn 第九届中国机器学习会议上海 2004年10月
1 机器学习研究进展 第九届中国机器学习会议 上海 2004年10月 王 珏 中国科学院自动化研究所 jue.wang@mail.ia.ac.cn 周志华 南京大学计算机科学与技术系 zhouzh@nju.edu.cn
目前,以“主义”争霸的 连接主义 符号主义 行为主义 时代已经过去,不同方法 解决不同问题。 Carbon Il89)展 Dietterich(1997 连接机缗学 统计机器学习 集成机器学习 符号机学习 符号机器学习 遗传机器学习 增强机器学习 分析闲 学习 流形机器学习 应用驱动的机器学习研究 半监督机器学习 多实例机器学习 Rank ing机器学习 数据流机器学习
连接机器学习 符号机器学习 遗传机器学习 分析机器学习 机器学习研究的变迁 Carbonell(1989)展望 Dietterich(1997)展望 ? 统计机器学习 集成机器学习 符号机器学习 增强机器学习 流形机器学习 半监督机器学习 多实例机器学习 Ranking机器学习 数据流机器学习 应用驱动的机器学习研究 连接主义 符号主义 行为主义 目前,以“主义”争霸的 时代已经过去,不同方法 解决不同问题
对统计机器学习的说明 Dietterich将感知机类的连接机器学习分 离出来,并根据划分机理,将其分为两种 类型:统计机器学习与集成机器学习。这 意味着,感知机类机器学习是重点 强调: (1) 表示:非线性问题的线性表示 (2) 泛化:以泛化能力为基础的算法设计 3
3 对统计机器学习的说明 ◼ Dietterich将感知机类的连接机器学习分 离出来,并根据划分机理,将其分为两种 类型:统计机器学习与集成机器学习。这 意味着,感知机类机器学习是重点 ◼ 强调: (1) 表示:非线性问题的线性表示 (2) 泛化:以泛化能力为基础的算法设计
对增强机器学习的说明 “适应性”是控制理论中最重要的概念 之一,以往在计算机科学中考虑较少 1975年,Holland首先将这个概念引入 计算机科学。1990年左右,MT的 Sutton等青年计算机科学家,结合动态 规划等问题,统称其为增强机器学习 这样,遗传学习成为实现增强机器学习 的一种方法
4 对增强机器学习的说明 ◼ “适应性”是控制理论中最重要的概念 之一,以往在计算机科学中考虑较少 ◼ 1975年,Holland首先将这个概念引入 计算机科学。1990年左右,MIT的 Sutton等青年计算机科学家,结合动态 规划等问题,统称其为增强机器学习 ◼ 这样,遗传学习成为实现增强机器学习 的一种方法
对符号机器学习的说明 尽管经过十年,符号机器学习被保留,然 而,其目标和内涵已发生很大的变化 改变泛化目标为符号描述(数据挖掘)。这 意味着,符号机器学习已不是与统计机器 学习竞争的研究,而是一个研究目标与其 不同的研究范式 网 5
5 对符号机器学习的说明 ◼ 尽管经过十年,符号机器学习被保留,然 而,其目标和内涵已发生很大的变化 ◼ 改变泛化目标为符号描述(数据挖掘)。这 意味着,符号机器学习已不是与统计机器 学习竞争的研究,而是一个研究目标与其 不同的研究范式
分析机器学司被效弃 分析机器学习所包含的类比、解释等问 题对背景知识有更高的要求,这从表示 到学习均需要考虑新的理论基础,在这 些理论未出现之前,其淡出机器学习研 究的视野是自然的 6
6 分析机器学习被放弃 ◼ 分析机器学习所包含的类比、解释等问 题对背景知识有更高的要求,这从表示 到学习均需要考虑新的理论基础,在这 些理论未出现之前,其淡出机器学习研 究的视野是自然的
近儿年的发展动向 由于真实世界的问题十分困难,现有的理 论、方法,甚至理念已不能满足需要,由 此,大量近代数学的研究结果被引入计算 机科学,由此,形成新的机器学习范式 7
7 近几年的发展动向 ◼ 由于真实世界的问题十分困难,现有的理 论、方法,甚至理念已不能满足需要,由 此,大量近代数学的研究结果被引入计算 机科学,由此,形成新的机器学习范式
特点 从Carbonell到Dietterich的特点是: (1) 在算法设计理论上,基础代替随意的算法 设计,具体地说,更为强调机器学习的数 学基础 (2) 应用驱动代替理论驱动(认知科学与算法 的Open问题)。具体地说,从AI中以“学 习”机制驱动(智能)”的研究方式,改变为 根据面临的实际问题发展新的理论与方法 8
8 特点 ◼ 从Carbonell到Dietterich的特点是: (1) 在算法设计理论上,基础代替随意的算法 设计,具体地说,更为强调机器学习的数 学基础 (2) 应用驱动代替理论驱动(认知科学与算法 的Open问题)。具体地说,从AI中以“学 习”机制驱动(智能)”的研究方式,改变为 根据面临的实际问题发展新的理论与方法
统计机器学习的要点 目前,统计机器学习的研究主要集 中在两个要点上: 表示问题 泛化问题 非线性问题 对给定样本集合 通过算法建立模型 在线形空间的表示 对问题世界为真的程度 9
9 统计机器学习的要点 ◼ 目前,统计机器学习的研究主要集 中在两个要点上: 表示问题 泛化问题 非线性问题 在线形空间的表示 对给定样本集合, 通过算法建立模型, 对问题世界为真的程度
线性表示 计算:非线性算法一般是NP完全的。 认识世界:只有在某个空间中可以描述为线 性的世界,人们才说,这个世界已被认识(将 问题变换为另一个问题) 数学方法:寻找一个映射,将非线性问题映 射到线性空间,以便其可以线性表述 10
10 线性表示 ◼ 计算:非线性算法一般是NP完全的。 ◼ 认识世界:只有在某个空间中可以描述为线 性的世界,人们才说,这个世界已被认识(将 问题变换为另一个问题) ◼ 数学方法:寻找一个映射,将非线性问题映 射到线性空间,以便其可以线性表述