第5章统计方法 本章目 阐述统计推论在数据挖掘中的一些常用方法。 介绍评价数据集的差异的不同统计参数 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 °用列联表的相关分析介绍对数线性模型。 论述方差分析和多维样本的线性判别分析的一些 概
第5章 统计方法 本章目标 • 阐述统计推论在数据挖掘中的一些常用方法。 • 介绍评价数据集的差异的不同统计参数。 • 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 • 用列联表的相关分析介绍对数线性模型。 • 论述方差分析和多维样本的线性判别分析的一些 概念
统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推岀结论是统计推理的 主题。 统计数据分析是为数据挖掘制定的最好的 套方法论。从一元的到多元的数据分析 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法
• 统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推出结论是统计推理的 主题。 • 统计数据分析是为数据挖掘制定的最好的 一套方法论。从一元的到多元的数据分析, 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法
5.1统计推断 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集
5.1 统计推断 • 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论。 • 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 • 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集
统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 我们的目标是从数据集1中获得信息来估计现实系 统f(X,w模型的一个或更多的参数w。数据集可用 下式描述 T={(x1,x1n),(x212 n m1"""--mn 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计岀这个模型的参数,就能用来 预测随机变量Y,Y是中固有的一个属性Y∈Ⅹ 如果Y是数值数据,称为回归,如果是离散的 无序的数据,称为分类
• 统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 • 我们的目标是从数据集T中获得信息来估计现实系 统f(X,w)模型的一个或更多的参数w。 数据集可用 下式描述: T={(x11,…,x1n), (x21,…,x2n) (xm1,…,xmn)} 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计出这个模型的参数,就能用来 预测随机变量Y,Y是T中固有的一个属性Y∈X。 如果Y是数值数据,称为回归,如果是离散的、 无序的数据,称为分类
当估计出数据集的参数模型ν后,就可用该 模型(以函数f(x*,)给出的结论去预测Y 预测值与真实值Y之间的差称为预测误差。 对于Y的预测值,模型fX*,)的自然属性度 量指标是整个数据集的期望均值平方差 ErlY-f(X*, w)21 至于假设检验相关课程已有介绍
• 当估计出数据集的参数模型w后,就可用该 模型(以函数f(X*,w)给出)的结论去预测Y。 • 预测值与真实值Y之间的差称为预测误差。 • 对于Y的预测值,模型f(X*,w)的自然属性度 量指标是整个数据集T的期望均值平方差: ET [Y-f(X*,w)2 ] • 至于假设检验相关课程已有介绍
5.2评测数据集的差异 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数 mediar和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 平均数 mean=l/n> xi 加权平均数 mean ∑mx/∑m
5.2 评测数据集的差异 • 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数median和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 • 平均数: • 加权平均数: = = n i mean n xi 1 1/ = = = n i i n i mean wixi w 1 1 /
中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n+1)/2 n是奇数 中位数= (x/2+xm/2)+1)n是偶数 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中岀现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明
• 中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n + 1) / 2 中位数= (xn / 2 + x(n / 2) + 1) n是奇数 n是偶数 • 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中出现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明
数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1X2Xn的方差是 2=(1/n+1)∑(x-meam3 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0
• 数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1 ,x2 ,…xn的方差是: = = + − n i n xi mean 1 2 2 (1/( 1)) ( ) • 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0
53贝叶斯定理 不难想象,数据不是总体或系统建模时惟一可利 用的信息资源。贝叶斯方法提供了一套将外部客 观信息溶入数据分析过程中的原理方法。它为解 决归纳推理分类问题的统计方法提理论依据。 贝叶斯定理: 设X是一个未知类标号的数据样本,设H为某 中假定:数据样本Ⅹ属于特定的类C。我们希望 确定P(X),即给定观测数据样本X后假定H成 立的概率
5.3 贝叶斯定理 • 不难想象,数据不是总体或系统建模时惟一可利 用的信息资源。贝叶斯方法提供了一套将外部客 观信息溶入数据分析过程中的原理方法。它为解 决归纳-推理分类问题的统计方法提理论依据。 • 贝叶斯定理: 设X是一个未知类标号的数据样本,设H为某 种假定:数据样本X属于特定的类C。我们希望 确定P(H|X),即给定观测数据样本X后假定H成 立的概率
贝叶斯定理给出数据集Ⅹ后我们对假设的 信任度的后验概率。贝叶斯定理提供了- 种由概率P(、P和PXH计算后验概率 P(HX)方法,其基本关系是 P(HX=[P(X H)P(H)I/P(X) P(HX)是后验概率或条件X下H的后验概 率。例如,假设数据空间由水果组成,用 它们的颜色和形状描述。假设X表示红色和 圆的,H表示假定X是苹果,则P(HX)反映 当我们看到Ⅹ是红色并是圆的时,我们对 Ⅹ是苹果的确信程度。作为对比P(H)是先 验概率,或H的先验概率
• 贝叶斯定理给出数据集X后我们对假设的 信任度的后验概率。贝叶斯定理提供了一 种由概率P(H)、P(X)和P(X|H)计算后验概率 P(H|X)方法,其基本关系是: P(H|X)=[P(X|H)P(H)]/P(X) P(H|X)是后验概率,或条件X下H的后验概 率。例如,假设数据空间由水果组成,用 它们的颜色和形状描述。假设X表示红色和 圆的,H表示假定X是苹果,则P(H|X)反映 当我们看到X是红色并是圆的时,我们对 X是苹果的确信程度。作为对比,P(H)是先 验概率,或H的先验概率