生物信息学 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics e00 第十章:统计学习与推理
第十章:统计学习与推理 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics
第一节统计学习与推理基础 一、fisher经典参数统计理论 fisher把判别分析、回归分析和密度估计问题等表达 为特定参数化模型的参数估计问题,并提出了估计 所有模型未知参数的方法—最大似然法
第一节 统计学习与推理基础 一、fisher经典参数统计理论 fisher把判别分析、回归分析和密度估计问题等表达 为特定参数化模型的参数估计问题,并提出了估计 所有模型未知参数的方法——最大似然法
二、经典非线性法 ANN (artificial neural network) 6 5 4 ① C ① 3 D 2 1 1 2 3 4 5
二、经典非线性法 ANN(artificial neural network)
三、小样本统计学习理论 (一)VC维 (二)推广性的界 对各种类型的函数集,统计学习理论系统地研究了 其经验风险与期望风险之间的关系,即推广性的界。 (三)结构风险最小 (四)小样本与转导推理
三、小样本统计学习理论 (一)VC维 (二)推广性的界 对各种类型的函数集,统计学习理论系统地研究了 其经验风险与期望风险之间的关系,即推广性的界。 (三)结构风险最小 (四)小样本与转导推理
四、基于概率的方法 基于概率的方法主要包括贝叶斯(Byes)推理及 隐马尔可夫模型(hidden Markov model,,HMM), 其中贝叶斯推理需利用来源于经验和历史资料 的先验信息
四、基于概率的方法 基于概率的方法主要包括贝叶斯(Bayes)推理及 隐马尔可夫模型(hidden Markov model,HMM), 其中贝叶斯推理需利用来源于经验和历史资料 的先验信息
第二节统计模型与参数推断 一、参数估计量的评选标准 (一)无偏性 参数估计量的期望值与参数真值是相等的,这种性 质称为无偏性。具有无偏性的估计量称为无偏估计 量。 (二)有效性 (三)相合性 (四)充分性与完备性
第二节 统计模型与参数推断 一、参数估计量的评选标准 (一)无偏性 参数估计量的期望值与参数真值是相等的,这种性 质称为无偏性。具有无偏性的估计量称为无偏估计 量。 (二)有效性 (三)相合性 (四)充分性与完备性
二、最小二乘估计 例:用最小二乘法求总体平均数的估计量 若从平均数为μ的总体中抽得样本为y1y23,yn,则观察值可剖分为总体平均数μ与 误差e:之和,即 y=十 (10.2.1) 总体平均数:的最小二乘估计量就是使y;与估计值以间的离差平方和为最小,即 Q=2%-w2 (10.2.2) 为获得其最小值,求Q对:的导数,并令导数等于0,可得 是=-22-0=0 (10.2.3) 即总体平均数的估计量为 (10.2.4) 因此,算数平均数为总体平均数的最小二乘估计。 一般地,若m个自变数工1,x2,x3,…,xm与依变数y存在统计模型关系, y=f(x1x2,x3…,xm;01,02,…,0)十e (10.2.5) 式中,01,02…,为待估参数。 通过n次观测(n)得到n组含有12…,xm,(i=1,2,…,n)的数据,以估计8,2,…, 。其最小二乘估计值为使 Q- e2= [y5-f(T1ix2…,xm;0,02,,脉)]2 (10.2.6) 为最小的01,02…,0k
二、最小二乘估计
三、最大似然估计 (一)似然函数 对于离散型随机变量,似然函数是多个独立事件的概率 函数的乘积,该乘积是概率函数值,它是关于总体参数 的函数。 例:一只大口袋里有红、白、黑3种球,采用复置抽50 次,得到红、白、黑3种球的个数分别为12、24、14,根 据多项式的理论建立似然函。 (二)最大似然估计 所谓最大似然估计就是指使似然函数值为最大以获得总 体参数估计的方法。 例:求红、白、黑球实例中的最大似然估计值
三、最大似然估计 (一)似然函数 对于离散型随机变量,似然函数是多个独立事件的概率 函数的乘积,该乘积是概率函数值,它是关于总体参数 的函数。 例:一只大口袋里有红、白、黑3种球,采用复置抽50 次,得到红、白、黑3种球的个数分别为12、24、14,根 据多项式的理论建立似然函。 (二)最大似然估计 所谓最大似然估计就是指使似然函数值为最大以获得总 体参数估计的方法。 例:求红、白、黑球实例中 的最大似然估计值
第三节聚类分析、主成分分析与 Fisher判别 一、聚类分析 (一)数据变换 1)中心化变换 4=巧-,i=1.2…,时=1,2.m西=/m 2)规格化变换 x)=(xi一min (xi})/(max(ri}一min(i}) 3)标准化变换 =(西-写/,西=分:y√员空g-》 4)对数变换 x=lnx可}(x>0)
第三节 聚类分析、主成分分析与 Fisher判别 一、聚类分析 (一)数据变换
(二)亲疏程度测度 l.明氏(Minkowski)距离 di (q)=(Ix-z 1)1/9 d=1 2.马氏距离 号M0=(i-)'∠3(x-) 3.兰氏距离 d=空+0川=1n
(二)亲疏程度测度