2020/2I14 研讨的问题 ●●● 非参数统计 。为什么学习非参数统计? (在职研究生) 。非参数统计主要包括的内容有哪些? 。课程特点 。基本概念回顾 wangxingwisdom@126.com 案例导引:ZJ大学正态成绩事件 Z小大学的正态成绩单分析(参考) 思考圆1:正右制是一个好的构想兴是一个的想? 反方 >30%h0a 时发贷装主生黎的行为 路 为E分南商正分布的法不可取 。。·大数据时代 ●● 这个故事接下去发展成为: 唯985论,唯热门专业论,唯??论成绩乱象 然壳食餐表于02轻用2日.段酒结果是一也 比较普遍,人才识别缺乏标准 人才市场需求被动。人才调控对策 人才标杆策略 :.m 长人们到底定的是什么
2020/2/14 1 中国人民大学统计学院 2019年9月 主讲人: 王 星 办公电话:010-82500167 办公室: 明德主楼 1019 沟通邮箱: wangxingwisdom@126.com 非参数统计 (在职研究生) 研讨的问题 为什么学习非参数统计? 非参数统计主要包括的内容有哪些? 课程特点 基本概念回顾 案例导引:ZJ大学正态成绩事件 然而在接到外界媒体询问时,大 学教务处却表示近期并不准备将这项 政策推广到所有课程,仅限于本科通 识课,但我们会研发类似的标准成绩, 但这项研发的焦点不在于扩大在校生 不及格比例。 2012年一则教育新闻报导,ZJ大 学正在试行一种“正态型成绩单”, 这份正态成绩单上很多成绩都将做正 态化处理,这样,学生拿着成绩单无 论是面试还是求学,都更容易让对方 面试者知道他某门课程在学习群体中 的实际水平。比如,90分表示在这项 科目上低于他的学生不会少于80% (Top20),60分表示在这项科目上 位于20%较低的水平。 ZJ大学的正态成绩单分析(参考) 正方 “正态分布为学生提供了竞 争的意识,能够有效促进学 生的学习积极性。 强制规定分数分布不科学的质疑,他表示, “但是如果说21% 不行,一定要降到20% 也 “如果不正态分布的话, 不太好。也就是说不喜欢‘被迫’的正态分布。 压力和权力将全部转嫁到 教师身上。” 对分数进行强行规定是一种粗暴的行为。 “就是毫无人性的教条主义。 GPA 有了实质性的降低 为正态分布而正态分布的做法不可取 思考题2:.成绩正态制要解决的是一个什么样的问题?这个待解决的问题一开始是 怎样发生的? 思考题1:正态成绩单制是一个好的构想还是一个差的构想? 增强成绩可比性,管理规范 反方 大数据时代 唯985论,唯热门专业论,唯??论!成绩乱象 比较普遍,人才识别缺乏标准 人才市场需求波动 人才调控对策 人才标杆策略 精英人才的识别 (标准化成绩单) 优势专业应在市场得到整体保护 对好大学懒生适当警示,优化未来市场对大学素质 教育的认可度 这个故事接下去发展成为: ZJ大学的校内论坛“CC98”上,一个发表于2012 年2 月21 日,投票结果是一边 倒的:在177名投票者中,认为这一规定 • “纯属扯淡”(170 人) “一点都不科学”(伪科学)(4 人),达到了174 人,占总投票者的98.3%, • 而选择“比较科学”与“非常科学”的分别只有1 人与2 人。 思考题4:为什么会这样? 1.是统计学的方法不够严谨吗? 2.是行业应用不了解统计学吗? 3.是成绩单导致了不及格人数的增长吗?人们到底否定的是什么? 人们否定的是纯真的师生文化被空洞化的二分精英理论所取代,到那时,绩效精英与普通民众之间 的关系会真正断裂,这样的精英能否代表民众的利益?能否反映民众的要求?是否受民众的影响?一 所大学的悲剧正是从人才培养战略选择二分精英论开始的? 如何识别人才:成绩单的一个作用是告诉你应该如何预备自己的未来,不是用来选拔人才的唯一指 标。比起过去了的成绩而言,人才至少应该是在任何困难面前有足够思考力的人,表现出积极活跃 的精英特质。 70分的学生把30分留给面试官,90分的学生要告诫自己,你不会的没考到,太不幸了,请从零开始 1 2 3 4 5 6
2020/2/14 ●●●思考题3 从统计应用来看这次失败的案例 ·分客透售没示种芬用色摆含适?什么时候不合适 统计失败原因之一:应用场录选择婚误 这个项目的失是由于问题的复来性, 在成镜羊功能 一种在 合适的例子:标的物西定,技术标准是否达标; 。在不情物不的资花分有的意又是什么: t先有差 。分布的存在性,结构性,密度性,差异性 成绩对个体的正面作用被忽略了。 ·建立分有边界,有效利用分布特点进行差异化分析 统计的能与不能之争 对需求的变化从套用、移花接木式的统计应用向对统计设 数据分析如此复杂,有哪些 基本的要领 前提供的信息是不相匹配的。 型 中的建 ●··三种参数的认识 非参数统计的作业要求 陈述间题State the problen 设的 ,(信号》统计参数 并思怎样的 合你手中的数据Re 将这营方法的代 数统计的方 heaeeentouarconpaienpaiethco 防止算法崩渍)计算参数 用非参数方法提出一种解决方案紫Propose a soluion using 12
2020/2/14 2 思考题3 分布适合作为一种标准吗?什么时候合适?什么时候不合适 ?合适的情况下,分布的作用是什么? ⚫ 分布是用来刻画不确定性的,不确定的由来:一方面是 由测量误差所引起的,惟极贫无依,则械系不稍宽,为 标准以警其余。——清·方苞《狱中杂记》,而另一反 方面是由可见数据集的有限性所引起的,标准不能用来 刻画后者的不确定性。 ⚫ 合适的例子:标的物固定,技术标准是否达标; ⚫ 不合适的例子:标的物不固定。 在评标物分布不固定的时候,研究分布的意义是什么? ⚫ 分布的存在性,结构性,密度性,差异性 ⚫ 建立分布边界,有效利用分布特点进行差异化分析 从统计应用来看这次失败的案例 统计失败原因之一:应用场景选择错误 这个项目的失败是由于问题的复杂性,在成绩单功能 的认识上,它主要的功能还是用来反映学生学习状态, 知识掌握程度的工具,若硬要将成绩单开发成一种在人 才市场上精英人才快速甄别的专业占领市场策略,则还 有大量的灰色地带有待开发,后来者居上的成功人士都 经历过先有差成绩单而后奋起搏发的励志经历,教育不 应陷入“成绩绑架”论。在危机面前策略简单化的驱动 下,成绩对个体的正面激励作用被忽略了。 数据分析如此复杂,有哪些 基本的要领 ---数据分析有过程 ---一步一步向上建 统计的能与不能之争 对统计需求的变化从套用、移花接木式的统计应用向对统计设计 的需求 Good of fit 检验:用于检查目前的数据是否和给定的一种正常的 情况是吻合的, 如果差距较大,表示那种正常的假设是与数据目 前提供的信息是不相匹配的。 Lack of fit 检验:以数据为中心,检验当前的模型是否合适,如 果不合适,提供哪些信息量来辅助建模 模型 模型1 模型2 模型3 模型5 模型4 模型为中心的建模 数据为中心的建模 三种参数的认识 (为了算法正常运行)环境技术参数:脚手架是为了保证分 析过程顺利进行而搭设的工作平台参数,例如为算法停止而 设置的参数,这些参数是程序依赖的,不是数据依赖的; (信号)统计参数: ⚫ 代表数据中稳定的信息部分,这些信息可以告诉我们应该选择 怎样的模型来提取数据的模型尝试中的lack of fit检验统计量和 结果,这些检验结果帮助我们尝试不同的模型空间信息; ⚫ ; (防止算法崩溃)计算参数: ⚫ 在提取模型的时候,需要在模型空间上进行参数的估计,然而 模型的系数在全局优化的目标下会变形,在模型空间中为防止 选择错误的模型而辅助性的设置的参数,也是经常调参的参数 所指。 非参数统计的作业要求 陈述问题State the problem 描述数据Describe the data 翻阅并思考怎样的统计方法适合你手中的数据Review what statistical methods are available to analyze your data 将这些方法的优点和缺点列出来,特别是将非参数统计的方法 和参数方法做一些比较List their advantages and disadvantages, in particular compare nonparametric to parameteric methods 用非参数方法提出一种解决方案Propose a solution using nonparametric methods 列出你将要完成的分析任务(收集数据,编程,模拟数据,估 计和检验)List all the tasks that you plan to do: collecting data, programming, simulating data, estimating, testing, etc. 7 8 9 10 11 12
2020/2/14 老士匠和学徒的对话 . 知识模块和课程体系 ( 工 下 国网 密 (☏( 贸以整大 14 ··课本和参考书 3neSneahogtamg8aecaeramstic 第一章绪论 Nonparametric Smoothing and lack-of- ehap&sp83cmpChnpgaraneticsatstesn, 5.吴喜之,2006,非参数统计间,中国统计出版社: yhtatiatic and Data 主要内容: ●● Role of Statistics 缕封锈整装价 Role of Staistics and statisticians have 1.什么是统计推断,统计推断中的基本撒念? descriptive as opposed to theoretical statistics 2.非参数统计方法简介 rather than al.Now 3.参数统计过理与非参数统计的比较 wever. sand sci nave to be 17 R 3
2020/2/14 3 老木匠和学徒的对话 老木匠在一堆木头中选一段上好的木头做桌面,小学徒挑出一段又大又直的 木头,自认为是好木料,老木匠拿来敲一敲,“这明明是块空心木头,怎 么会是上好的木料”? 老木匠说“从声音中可以分辨出来,如果声音很低 很小,就是实心的,如果声音很高很大,就是空心的”。 又一次,师傅要找一根有用的木头,最后找了一根弯的不成样子的木头,找 这根弯木头干什么呢?师傅说“不是只有直木头才有用,弯弯的木头就没 有用,直或弯只是木头的特点,不是木头的缺点,你找这根木头何用吗? 是用来做牛轭,这是一块好材料”,师傅说:“所谓有用,不是放到哪里 都有用,直木头放在直的地方正合适,弯木头放在直的地方就是废料,世 上的东西,大都如此,放对地方,就是好料,放错地方就是废料” 在选配用于木结构的各种木料时, 应该比设计的尺寸要放长一点。 木材在 加工制作过程中,要经过锯、刨、凿等多道工序,为防止在凿眼、拼装等 过程中,因受力过猛而发生崩裂等情况,在下料时,除在界面尺寸适当 放 大外.还要在长度方面放大一定的尺寸,等到拼装完毕、受 力稳定后,再 把多余的部分锯掉。 LEO Breiman也说过类似的话:统计学家就该定位于一个好木匠 识人用人如此,识数用数,做“有心的正直木匠”,大体也如此。 知识模块和课程体系 非参数统计 基础 单一总体的 统计推断 两总体位置 和尺度推断 定性数据的 分析 定量数据的 相关和回归 非参数密度 估计 非参数回归 多总体位置 推断 R及其应用 非参数 统计 估计和检验 方法 分类数据 的检验方 法 非参数密度 估计 非参数回 归 时间事 件分析 对数线 性模型 秩理论 课本和参考书: 1. 王星,褚挺进, 非参数统计[M], 清华大学出版社, 2015,09. 勘误表之后会列在网站上 2.John Kloke,Joseph W.McKean,Nonparametric Statistical Methods Using R,CRC Press 3.Jeffrey D.Hart,Nonparametric Smoothing and lack-ofFit Tests,Springer. 4.Larry Wasserman, All of non-parametric Statistics[M], Chap 2,Chap 3,Chap 5*, Chap 6*. 5.吴喜之,2006, 非参数统计[M], 中国统计出版社; 6.John A. Rice, Mathematical Statistics and Data Analysis[M], chap 9, 10,11,13. 第一章 绪 论 主要内容: 1. 什么是统计推断,统计推断中的基本概念? 2. 非参数统计方法简介 3. 参数统计过程与非参数统计的比较 4. 非参数统计的历史 5.必要的准备知识 什么是非参数统计? 非参数统计的主要内容是什么? Role of Statistics Role of Statistics and statisticians have always played a major role, but this has changed. It used to be almost entirely in descriptive as opposed to theoretical statistics, and observational rather than inferential. Now the processes can best be described as descriptive statistics plus modeling. However, ”It is descriptive statistics and scientific method which have to become fully one” Ehrenberg.A.S.C.(1968)J.R.Statist.Sco.A.131,201 13 14 15 16 17 18
2020/2/14 WHAT IS DATA SCIENCE ● 2!非参数统计方法简介 ···参数方法 一个典型的参数检验过程 1总体参表 2.假定数据的形态为 Whole Numbers or Fractions mple:Height in Inches(7,60.,54.7) :正态分布 4.例子:Z Test,t Test,x2Tcst 21 22 。··(1)假设检验回顾 ●●●内容 o问题: ()新引进的生产过程是否优于旧过程? (a)假设的真正通义和作用 ()几种不同的肥料爆一种更有效? 择假设 保装的院业幸与城市大业幸之风是香 )如何选择 显春性水 平的作用 (d)两类错误 8之 d
2020/2/14 4 2. 非参数统计方法简介 参数方法 定义:样本被视为从分布族的某个参数族抽取出来的 总体的代表,未知的是总体分布中具体的参数,推断 问题就转化为对分布族的若干个未知参数的估计问题, 用样本对这些参数做出估计或者进行某种形式的假设 检验,这类推断方法称为参数方法。 比如: (1)研究保险公司的索赔请求数时,可能假定索赔请 求数来自泊松分布P(a); (2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布 N(a,b). 一个典型的参数检验过程 1. 总体参数 Example: Population Mean 2. 假定数据的形态为 Whole Numbers or Fractions Example: Height in Inches (72, 60.5, 54.7) 3. 有很强的假定 Example: 正态分布 4. 例子: Z Test, t Test, 2 Test (1) 假设检验回顾 问题: (a) 新引进的生产过程是否优于旧过程? (b) 几种不同的肥料哪一种更有效? (c) 大学生的就业率与城市失业率之间是否 存在关系? 内容 (a)假设的真正涵义和作用 (b)如何选择零假设和备择假设 (c)检验的p-值和显著性水平的作用 (d)两类错误 19 20 21 22 23 24
2020/2/14 ·●·统计检验的例子 ·●●内容 (a)假设的真正通义和作用 ·黄新离窖条清器瑞尚受合是要州断新 (b)如何选择零假设和备择假设 。城市中拥有汽车的人口比例是否超过30%? (c)检验的P-值和显著性水平的作用 0使用理财产品A的每月新增用户数与使用理财产 (d)两到 错 品B的每月新增用户数有差异吗? (©)置信区间和假设检验之间的关系 均值的单尾Z检验 均值的单尾Z检验 (实例 (计算结果) 【例】某批发育从 家购 检验统计量: 0.05 =100 临界值(s) 决策: 在a=0.05的水平上整牡跑 结论: 0.05 7 寿番餐李蕊地的使用 27 假设检验的过程和逻辑 ●● 该问题如果两个假设对换? H:u1000 F-4996-1000 - 0a=.05 201W100 决箭 概率在这个意义上,P-值又称为观测的显著性水平 .05的水平上不能 拒绝 01.645
2020/2/14 5 统计检验的例子 公司在收到一批货物的时候,质检人员需要判断 该批货物的属性是否与合同中规定的一致。 某新药的研究开发过程中,研究人员需要判断新 药的药效是否比原有的药物更加有效。 城市中拥有汽车的人口比例是否超过30%? 使用理财产品A的每月新增用户数与使用理财产 品B的每月新增用户数有差异吗? 内容 (a)假设的真正涵义和作用 (b)如何选择零假设和备择假设 (c)检验的p-值和显著性水平的作用 (d)两类错误 (e)置信区间和假设检验之间的关系 996 996 假设检验的过程和逻辑 ⚫ 寻找数据内部差异中共同的特征,甄别数据之间的本 质差异是统计推断的核心内容,假设检验就是帮助我 们确定显著性差异界限的最好工具。 ⚫ 计算机软件仅仅给出p-值,它表示我们要对比的两个 假设之间差异存在的显著性。拒绝零假设时犯错误的 概率.在这个意义上,p-值又称为观测的显著性水平 (observed significant level)。在统计软件输出 p-值的位置,有的用“p-value”,有的用significant 的缩写“Sig” 。 该问题如果两个假设对换?? 检验统计量: 决策: 在α = .05的水平上不能 拒绝 结论:没有确凿证据表示零 假错,也就是说可能µ 1000 = .05 n = 100 临界值(s): 0 Z Reject H0 1.645 2 2 0 / 100 996 1000 = − − = − = n X Z 25 26 27 28 29 30
2020/2/14 0●● 单边检验和双边检验的即值? 莫德尔和他的学术之梦 围单达检轻的一国 经品 ●●●p-值的作用--来自ASA 一个例子: P值可以指示数据与 一个给定模型的不相容程度 。德天为真的率,也不旋量数嘉仅由随 ○祛家酷个德请森能成政策制定,不位只取决印值是香 0丽究膏需融贸究进行完整的根香、保还道明皮,才能作 ···非参数检验过程 。1.不涉及总体的分布 02.数据的形态各异 。定序戴 mplgGoodBotarBe ·名义歌 mpe:Male-Fomale 3.例子:Wilcoxon Rank Sum Test/Run Test E.M F.M.E.M.E.M.E.M.E.M.E.M.F
2020/2/14 6 单边检验和双边检验的p值?? 莫德尔和他的学术之梦 “实验的假设很有趣,而且数据也能够有力支持实验假设。”用来衡量 统计显著性的常用指标是P值。该实验中的P值为0.01,莫德尔十分有把 握能把自己的论文发表在高影响因子的刊物上。 由于担心实验结果陷入再现性争论,莫德尔和他的导师布莱恩•诺塞克(Brian Nosek)决定重复实验。添加了新的数据之后,P值变成了0.59,这个数字远未 达到学界一般能接受的显著性水平0.05。莫德尔观察到的心理学效应没有了, 他年少成名的梦也被打碎了。 http://www.guokr.com/article/438043/ p-值的作用----来自ASA P-值可以指示数据与一个给定模型的不相容程度 P-值不能衡量假设为真的概率,也不能衡量数据仅由随 机因素造成的概率 科学结论、商业决策或政策制定,不应只取决于p-值是否 达到一个给定的标准 研究者需对研究进行完整的报告、保证透明度,才能作 出合理的结论 P-值或显著性并不能衡量效应的大小和结果的重要性 P-值本身不能衡量模型或假设的可信度。 一个例子: 对两组学生进行语法测试,如何比较两 组学生的成绩是否存在差异? RANK of SCORE 0.0 5.0 10.0 15.0 20.0 25.0 Histogram For GROUP= Group1 Frequency 6 5 4 3 2 1 0 Std. Dev = 6.28 Mean = 13.0 N = 12.00 原始数据 秩 25 30 29 34 24 25 13 32 24 30 32 37 9.5 14.0 12.0 21.0 7.5 9.5 2.0 17.5 7.5 14.0 17.5 24.0 44 33 22 8 47 31 40 30 33 35 18 21 35 28 22 26.0 19.5 5.5 1.0 27.0 16.0 25.0 14.0 19.5 22.5 3.0 4.0 22.5 11.0 5.5 RANK of SCORE 0.0 5.0 10.0 15.0 20.0 25.0 Histogram For GROUP= Group2 Frequency 6 5 4 3 2 1 0 Std. Dev = 9.17 Mean = 14.8 N = 15.00 非参数检验过程 1.不涉及总体的分布 ⚫ Example: Probability Distributions, Independence 2. 数据的形态各异 ⚫ 定量数据 ⚫ 定序数据 • Example: Good-Better-Best ⚫ 名义数据 • Example: Male-Female 3.例子: Wilcoxon Rank Sum Test/Run Test F, F, F, F, F, F, F, F, M, M, M, M, M, M, M F, M, F, M, F, M, F, M, F, M, F, M, F, M, F 31 32 33 34 35 36
2020/2I14 ·●·非参数统计的基本内容 。估计 ●●● 函估计 3.参数与非参数统计比较 分 总付 8体 非参数检验的优点 ●● 非参数检验的弱点 ©滋是鞋餐察数,布广泛的遥用性,给条 。1.可能会浪费一些信息 特男 当 可以使用 。1.假定较少 。2.不需要对总体参数的假定 Ratio to Ordinal Scale 。3.与参数结果接近 02.大样本手算相当麻须 针对几乎所有类型的数据形态 03.一些表不易得到 。强调计算 ·在计算机盛行之前就已经发限起来: 估计涉及大量数据的计算 。。。Nonparametric vs Parametric ds 课程大纲 o Nonparametric models More flexibleo parametric model is needed Parametric models: But the model needs to be picked in advance. 1
2020/2/14 7 3. 参数与非参数统计比较 非参数统计的基本内容 估计 ⚫ 分布函数估计 ⚫ 函数估计 ⚫ 密度估计 ⚫ 统计关系估计: • 定性数据的关联分析 • 非参数回归 假设检验 ⚫ 单一总体 ⚫ 两总体 ⚫ 多总体 对总体假定较少,有广泛的适用性,结果 稳定性较好。 ⚫ 1. 假定较少 ⚫ 2. 不需要对总体参数的假定 ⚫ 3. 与参数结果接近 针对几乎所有类型的数据形态。 强调计算 ⚫ 在计算机盛行之前就已经发展起来; ⚫ 估计涉及大量数据的计算。 非参数检验的优点 1. 可能会浪费一些信息 n 特别当数据可以使用参数模型的时候。 n Example: Converting Data From Ratio to Ordinal Scale 2. 大样本手算相当麻烦 3. 一些表不易得到 非参数检验的弱点 Nonparametric vs Parametric methods Nonparametric models ⚫ More flexible-no parametric model is needed ⚫ But require storing the entire dataset ⚫ And the computation is performed with all data examples Parametric models: ⚫ Once fitted, only parameters need to be stored. ⚫ They are much more efficient in terms of computation ⚫ But the model needs to be picked in advance. 课程大纲 第一讲 绪论和基本要求 第二讲 非参数统计基本概念,分布函数估计 第三讲 秩统计量及分布,连续性修正 第四讲 单一样本的推断问题(1) 中位数检验 第五讲 单一样本的推断问题(2) 趋势和随机游程检验 第六讲 单一样本的推断问题(3) :置信区间计算 第七讲 分布的一致性检验 第八讲 理论部分:U统计量和渐进相对效率 第九讲 两样本位置检验 第十讲 多总体推断(一) 第十一讲 多总体推断(二) 第十二讲 多总体推断(三) 第十三讲 分类数据关系分析 第十四讲 秩相关分析 第十五讲 非参数密度估计 第十六讲 局部多项式回归** 37 38 39 40 41 42
2020/2/14 非参数统计的历史 ●● 4.非参数统计的历史 设计位验 。·●非参数统计的历史 。。。非参数统计的历史(续) 40 °送篮中型分和Frguon最早将参嫩方 作.Wilcox0n于1945年提出两样本秩和检 00年代到年代稳然线封信助计第机技术和 二人将结果推 术的实 参戴统计的研究和应用主要集中在 ●●● 非参数统计历史(1932-1962) 5.基本概念 ●●● (1)分布函数和经验分布及图形表示 体 的 (2)数据的探索 (3)渐进相对效率 分表 性 (4)非参数信区间 方法在当时 (5)秩检验统计量 个有性计文的强太 (6U统计量
2020/2/14 8 4. 非参数统计的历史 非参数统计的历史 年代 代表性人物 代表性检验 1900 Karl Pearson Good of fit test 1904 Spearman Spearman等级相关系数 1937 Friedman Friedman Q检验法 1938 Kendall Tau相关系数 1939 Smirnov Smirnov(K_S)检验 1939 Fisher Erwin Fisher精确性检验 1945 Wilcoxon Wilcoxon秩检验法 1947 Mann,Whitney U值检验法 1949 Jackknife Quenouille 1950 Cochran Q检验法 1951 Brown Mood BM中位数检验法 1951 Durbin 均衡的不完全区组设计检验法 1952 Kruskal, Wallis KW检验 1954 Kendall 协和系数法 1958 Bross 非参数Ridit检验 1959 Mantel-Haenszel Q_{MH} 1960 Cohen Kappa一致性检验 1963 Hodges-Lehmann HL估计量 1979 Efron bootstrap 1984 Noether 渐进相对效率的Noether条件 1990 Smoothing 非参数统计的历史 非参数统计思想的形成主要归功于20世纪40 年代~50年代化学家F.Wilcoxon等人的工 作。Wilcoxon于1945年提出两样本秩和检 验,1947年Mann和Whitney二人将结果推 广到两组样本量不等的一般情况; Pitman于1948年回答了非参数统计方法相 对于参数方法来说的相对效率方面的问题; 非参数统计的历史(续) 60年代中后期,Cox和Ferguson最早将非参数方 法应用于生存分析。 70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。 90年代有关非参数统计的研究和应用主要集中在 非参数回归和非参数密度估计领域,其中较有代 表性的人物是Silverman和J. Fan。 大规模计算和自动化分析的需要将非参数统计引 入机器学习领域。代表Hastie,Wasserman等。 非参数统计历史(1932-1962) 在后Fisher时代1932-1962年统计思想史的历程:正是数据 科学的孕育期,这个时代的特征是学科壁垒没有那么深厚,很多 统计学家实际上一生都是在从事着其他学科,他们对于其他领域 的眼界是很开阔的;也正是这段时间,我们看到了整个非参数话 语体系的形成,它是在扩大传统统计通往机器学习的过度。他们 在解决从化学、生物、心理等急速发展领域中的实际问题过程中 发展出一种全新的数据分析观念,这些方法并不是来自于周密的 论证,而是借着参数推断已形成的渐进理论和分布表技术,发展 存在于数据本身特有的“小秩序”、“稳健性”、“小别离”和 “局部特征”,这些统计方法在当时的推断文化中看似不占有核 心位置,甚至也没有成为对思想来源领域认知的主流方法论,但 是随着计算技术的发展,却具有动摇整个既有统计文化的强大力 量,引起整个数据分析风向的深刻变革。 5. 基本概念 (1)分布函数和经验分布及图形表示 (2)数据的探索 (3)渐进相对效率 (4)非参数置信区间 (5)秩检验统计量 (6)U统计量* 43 44 45 46 47 48
2020/2I14 ·●●经验分布的基本理论 是F的一个很好估计? :是一个德机支 服从二项分布 国=∑化Q P(p.-Fe>)s 使用ecdf函数制作分布函数 nerve=scan("E:\datal onparnerve.dat") plot(ecdf(nervo,verticals=T)) e sort) plot(nerve.sort,nerve.cdf) 4 9
2020/2/14 9 经验分布的基本理论 > 50 是F的一个很好估计? 给定x, 是一个随机变量: 服从二项分布 所以 经验分布函数的性质 分布函数的估计 例:1966年Cox和Lewis的一篇研究报告给出了神 经纤维细胞连续799次激活的等待时间(相邻脉冲) 的分布拟合,数据的经验分布函数如图: ((1/(2*799))*log(2/0.05,exp(1)))^0.5 [1] 0.04804618 nerve=scan(“E:\\data\\nonpar\\nerve.dat") nerve.sort=sort(nerve) nerve.rank=rank(nerve.sort) nerve.cdf=nerve.rank/length(nerve) plot(nerve.sort,nerve.cdf) 使用ecdf函数制作分布函数 plot(ecdf(nerve,verticals=T)) attach(faithful) plot(ecdf(eruptions), do.points=FALSE, verticals=TRUE) 49 50 51 52 53 54
2020/2/14 统计函数的估计 经验分布的变形生存函数 口统计函数:F的任意函数 50-7≥t):L o如均值:u=∫xdF) 30-1-0 口终材的物 O插入F代替未知的F 55 ●··几内亚猪生存函数 分位数和分位数的图形表示法 a=5p(x)dx e.female)with accosnting for left-trunction can b 70
2020/2/14 10 经验分布的变形---生存函数 t ) 几内亚猪生存函数 分位数和分位数的图形表示法 − = xq q p(x)dx boxplot(g3,g4,col="orange") 爱荷华大学医学院1935-1948年间26例住院精神病患者生存资料分 析,该样本是对住院精神病患者进行的一项更大规模研究的一部分。 Tsuang和Woolson(1977)讨论过该数据,每个患者的数据包括首 次入院时的年龄、医院、性别、随访年数(从入院到死亡或检查的 年数)和患者后续时间的状态。研究目标是想知道男性精神病患者 和女性精神病患者比普通公众会不会更易于死亡的风险,医院的数 据显示在下表中 55 56 57 58 59 60