Course outline ·主要内容:U统计量,一样本方法,两样本方法,多样本方法,成对比 较与区组设计,趋势与关联的检验,经验分布函数与经验似然,非参 数Bootstrap方法,非参数回归,密度估计,其他光滑方法 ·预修课程:概率论,数理统计,回归分析,R语言 。参考书: 1.应用非参数统计,薛留根,科学出版社。 2.现代非参数统计,吴喜之译,科学出版社. 3.Practical nonparametric statistics,Conover,W.J.1999,3rd edi- tion.(实用非参数统计,人民邮电出版社,2006) 4.Nonparametric Statistical Inference,5th Ed.Dickinson-Gibbons J.Chakraborti S.2010
Course outline • ÃáSN: U⁄O˛, òê{, ¸ê{, ıê{, §È' Ü´|O, ™³Ü'Èu, ²©ŸºÍܲq,, öÎ ÍBootstrapê{, öÎÍ£8, ó›O, Ÿ¶1wê{ • ˝?ëß: V«ÿ, Ín⁄O, £8©¤, RäÛ • Î÷: 1. A^öÎÍ⁄O, Å3ä, âÆ—á. 2. yìöÎÍ⁄O, «UÉ», âÆ—á. 3. Practical nonparametric statistics, Conover, W.J. 1999, 3rd edition. (¢^öÎÍ⁄O, —á, 2006) 4. Nonparametric Statistical Inference, 5th Ed. Dickinson-Gibbons J, Chakraborti S, 2010
·课程评定方法:课程评定分为网上和网下评定两部分,最终评分加权 得到。 1.每人网上提交一个知识点和一道习题解答,网上知识点10分:网上 作业解答提交8分。网上作业和知识点报告最后的分数只有两种情 况:满分或者0分。 2.课堂表现5分,由到课、提问、小测验等方式评定:网下作业17分。 3.作业的截止日期将以周来计算,根据网上的作业任务以及我们上 课的进度,请大家在每周上课之前完成相应的习题。 4.助教会负责检查每位同学的标准解答,并对没有达到要求的提出 修改意见。请同学们认真对待修改意见并作相应的修改。 5.课程总评分为期末考试(60%)+课堂评分(课堂5%+知识点10%)+作 业(网下作业17%+网上作业8%) ·网站http:/shjkx.wang Previous Next First Last Back Forward 1
• ëßµ½ê{: ëßµ½©è˛⁄eµ½¸‹©ßÅ™µ©\ " 1. z<˛Jòá£:⁄òSK)â߲£:10©; ˛ äí)âJ8©"˛äí⁄£:wÅ©Íêk¸´ú ¹µ˜©½ˆ0©" 2. ë,Ly5©ßdë!JØ!ˇê™µ½¶eäí17©" 3. äíéFœÚ±±5Oéß䂲äí?÷±9·Ç˛ ë?›ßûå[3z±˛ëÉc§ÉASK" 4. œ¨KIuz†”ÆIO)âßøÈvkàá¶J— ?UøÑ"û”ÆÇ@˝Èñ?UøÑøäÉA?U" 5. ëßoµ©èœ"£(60%)+ë,µ©(ë,5%+£:10%)+ä í(eäí17%+˛äí8%) • ’ http://shjkx.wang Previous Next First Last Back Forward 1
Chapter 0 Introduction and Review 0.1 Parametric and Nonparametric Statistics ·参数统计 -参数:刻画总体分布的(未知)常数 -统计量:仅依赖于样本的量 ·参数方法:基于总体分布的一些假设下进行估计和推断 例1.假设IQ得分X~N(4,102),我们观测到的10个1Q得分为121,98,95, 94,102,106,112,120,108,109.考虑的问题是:平均IQ得分是否显著的大 于1002 零假设:Ho:4=100 对立假设:1:4>100. 检验方法:在正态假设下,使用z-test进行检验, Previous Next First Last Back Forward 1/?
Chapter 0 Introduction and Review 0.1 Parametric and Nonparametric Statistics • ÎÍ⁄O - ÎÍ: èxoN©Ÿ(ô)~Í - ⁄O˛: =ù6u˛ - ÎÍê{: ƒuoN©Ÿò be?1O⁄̉ ~ 1. bIQ©X ∼ N(µ, 102 ), ·Ç*ˇ10áIQ©è121, 98, 95, 94, 102, 106, 112, 120, 108, 109. ƒØK¥: ²˛IQ©¥ƒwÕå u100? "b: H0 : µ = 100 È·b: H1 : µ > 100. uê{: 3be, ¶^z-test ?1u. Previous Next First Last Back Forward 1/??
·非参数统计 ·不假定总体分布的形式 ·估计和推断过程中对总体分布作较少的假设 ,多基于大样本性质 -“nonparametric'"一词使用不是很恰当,我们的目的仍然是对参数进 行估计或检验.但不假设分布形式已知,一般仅假设样本是简单随 机样本。 -更准确的术语:distribution-free Statistics 例2.假设1Q得分X:为i.i.d,我们观测到的10个IQ得分为121,98,95,94, 102.106,112,120,108,109.考虑的问题是:IQ得分的中位数是否显著的大 于1009 零假设:Ho:med(X)=100 对立假设:H1:med(X)>100 检验方法:使用非参数检验方法进行检验: Previous Next First Last Back Forward 2
• öÎÍ⁄O - ÿb½oN©Ÿ/™ - O⁄̉Lß•ÈoN©Ÿäb - ıƒuå5ü - “nonparametric”òc¶^ÿ¥ÈT, ·Ç8E,¥ÈÎÍ? 1O½u. ÿb©Ÿ/™Æ, òÑ=b¥{¸ë Å. - çO(‚ä: distribution-free Statistics ~ 2. bIQ©Xi èi.i.d, ·Ç*ˇ10áIQ©è121, 98, 95, 94, 102, 106, 112, 120, 108, 109. ƒØK¥: IQ©•†Í¥ƒwÕå u100? "b: H0 : med(X) = 100 È·b: H1 : med(X) > 100. uê{: ¶^öÎÍuê{?1u. Previous Next First Last Back Forward 2
·数据的测量尺度 -nominal scale:列名尺度,例如:性别、民族、职业 数据表现为“类别”,各类之间无等级次序,各类别可以用数字代码 表示 -ordinal scale:顺序尺度,例如健康状况、质量等级 数据表现为“类别”,可对等级、大小等排序,未测量出类别之间 的准确差值 -interval scale:间隔尺度,例如年份、摄氏温度 数据表现为“数值”,可以进行加减运算,“0”是只是尺度上的一 个点,不代表“不存在” -ratio scale:比例尺度,例如体重、身高 数据表现为“数值”,可以进行加减、乘除运算,“0”表示“没 有”或“不存在” Previous Next First Last Back Forward 3
• Í‚ˇ˛º› - nominal scale: ¶º›, ~Xµ5O!¨x!Öí Í‚Lyè/aO0,àaÉmÃ?gS,àaOå±^ÍiìË L´ - ordinal scale: ^Sº›, ~XËxG¹!ü˛? Í‚Lyè/aO0, åÈ?!å¸S, ôˇ˛—aOÉm O(ä - interval scale: mÖº›, ~Xc°!ºß› Í‚Lyè/Íä0,å±?1\~$é,/00¥ê¥º›˛ò á:ßÿìL/ÿ30 - ratio scale: '~º›,~XN!p Í‚Lyè/Íä0,å±?1\~!¶ÿ$é,/00L´/v k0½/ÿ30 Previous Next First Last Back Forward 3
。为什么学习非参数统计 ,在很多时候,对于总体分布没有“先验”知识 ·若参数统计方法的假设不成立,则统计推断结果可能有误 ·在小样本场合,正态逼近表现不佳 ·因此我们需要一类统计方法: ·对模型/分布仅作很少假设 -对模型/分布假设比较稳健/不敏感 Previous Next First Last Back Forward 4
• èüoÆSöÎÍ⁄O - 3Èıûˇ, ÈuoN©Ÿvk“k”£ - eÎÍ⁄Oê{bÿ§·,K⁄Ỏ(JåUkÿ - 3|‹, %CLyÿZ • œd·ÇIáòa⁄Oê{: - È./©Ÿ=äÈb - È./©Ÿb'Ë/ÿØa Previous Next First Last Back Forward 4
0.2 Review of Probability distribution 0.2.1 Normal distribution ·非常流行的对称钟形连续分布 ·X~N(4,σ)的概率密度函数 e-lsu)? 1 f(x)= 2a2 V2Ro 其中(4,σ2)为参数 ·N(0,1)为标准正态分布,相应的分布函数记为Φ,概率密度函数为中 ·标准化:X~N(4,σ2),则 X-上N0,1) ·N(4,2)的分布函数(CDF) Fx(x)=P(X≤x)=P(X-)/a≤(x-4)/o)=Φ(x-)/o) Previous Next First Last Back Forward 5
0.2 Review of Probability distribution 0.2.1 Normal distribution • ö~61È°®/ÎY©Ÿ • X ∼ N(µ, σ2 )V«ó›ºÍ f(x) = 1 √ 2πσ e − (x−µ) 2 2σ2 Ÿ•(µ, σ2 )èÎÍ. • N(0, 1)èIO©Ÿ, ÉA©ŸºÍPèΦ, V«ó›ºÍèφ • IOz: X ∼ N(µ, σ2 ), K X − µ σ ∼ N(0, 1) • N(µ, σ2 )©ŸºÍ(CDF) FX(x) = P(X ≤ x) = P((X − µ)/σ ≤ (x − µ)/σ) = Φ((x − µ)/σ) Previous Next First Last Back Forward 5
9 F(z) 、(z) -2 0 2 Figure 1:PDF and CDF of standard normal distribution. Previous Next First Last Back Forward 6
0 Introduction and Review 10 −4 −2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0 z F(z) f(z) Figure 1: PDF and CDF of standard normal distribution. Previous Next First Last Back Forward 6
0.2.2 Binomial distribution ·由n(个数己知)个Bernoulli试验构成 ·每个Bernoulli试验只有“成功”(S)和“失败”(F)两种可能试验结果 。每次试验的成功的概率均为P(S)=p ·试验相互独立 ·二项分布随机变量X={次试验中成功的次数},其分布律为 P(X=) p(1-p)-k,k=0,1,,n 记为X~Bin(n,p).p为参数. ·均值EX=np,方差Var(X)=np(1-p). Previous Next First Last Back Forward 7
0.2.2 Binomial distribution • dn(áÍÆ)áBernoulli£§ • záBernoulli£êk“§ı”(S) ⁄“î}”(F) ¸´åU£(J • zg£§ıV«˛èP(S) = p • £Ép’· • ë©ŸëÅC˛X={ng£•§ıgÍ}, Ÿ©ŸÆè P(X = k) = n k ! p k (1 − p) n−k , k = 0, 1, . . . , n PèX ∼ Bin(n, p). pèÎÍ. • ˛äEX = np, êV ar(X) = np(1 − p). Previous Next First Last Back Forward 7
0.3 Quantile p分位数假设总体分布函数为F(x),则F(x)的p分位数ξ是满足下述 条件的一个数: F(E)≥p,F(Ep-0)≤p,0<p<1 这样定义的p分位数可能不唯一(易证:若p分位数不唯一,则它充满一个有界 区间)为此,定义分位数为 5p=inf{x:F(x)≥p},p∈(0,1) 上a分位数称数xa为连续分布F(x)的上a分位数,如果 F(Ta)=1-a 显然对连续分布F(x)有1-a=xa 常使用该分布的名称来记上分位数,如标准正态的上a分位数为za,t的 上a分位数为ta(n)等 Previous Next First Last Back Forward 8
0.3 Quantile p©†Í boN©ŸºÍèF(x), KF(x)p©†Íξp¥˜ve„ ^áòáÍ: F(ξp) ≥ p, F(ξp − 0) ≤ p, 0 < p < 1 ˘½¬p©†ÍåUÿçò(¥y: ep©†Íÿçò, Kßø˜òák. ´m) èd, ½¬p©†Íè ξp = inf{x : F(x) ≥ p}, p ∈ (0, 1) ˛α©†Í °ÍxαèÎY©ŸF(x)˛α©†Í, XJ F(xα) = 1 − α - w,ÈÎY©ŸF(x)kξ1−α = xα. - ~¶^T©Ÿ¶°5P˛©†Í, XIO˛α©†Íèzα, tn ˛α©†Íètα(n) Previous Next First Last Back Forward 8