
第一讲 多元统计分析简介
1 第一讲 多元统计分析简介

内容1.课程简介2.数据可视化3.超立方体4.超球体的体积、表面积5. 超球体上的均匀分布(以概率研究几何)符号约定:向量/随机向量:黑正体小写字母,X,0变量/随机变量:斜体小写字母,x,0矩阵:大写字母,X注意我们不以大小写区分随机变量和变量(即不以大写X表示随机变量,不以小写x表示其实现)
内容 1. 课程简介 2. 数据可视化 3. 超立方体 4. 超球体的体积、表面积 5. 超球体上的均匀分布(以概率研究几何) 2 符号约定: 向量/随机向量:黑正体小写字母,𝐱, 𝛉 变量/随机变量:斜体小写字母,𝑥, 𝜃 矩阵:大写字母,𝑋 注意我们不以大小写区分随机变量和变量(即不以大写𝑋 表示随机变量,不以小写𝑥表示其实现)

课程简介多变量微积分、线性代数、概率论、数理统计先修多元/向量多元统计分析(或多元分析)的主要研究对象是向量xERP(向量:多元、多维、多变量)R2R1RSR3(x1,x2)T(x,,xs)Tx(x1,X2,X3)T向量数据X..,XnERP按行排列组成n×p数据矩阵:数据矩阵(X11(xT)X1p:ERnxpX='.::-(xT)Xn1Xnp注意这里的X不是回归分析中的设计阵。一元线性回归模型一般认为不属于多元分析,这是因为主要研究对象响应变量是一元变量:如果响应是多元的(即多元线性回归)则属于多元分析。3
3 多元统计分析(或多元分析)的主要研究对象是向量𝐱 ∈ 𝑅 𝑝 (向量:多元、多维、多变量) 课程简介 多元/向量 先修 多变量微积分、线性代数、概率论、数理统计 𝑅 1 𝑅 2 𝑅 3 𝑅 5 𝑥 (𝑥1, 𝑥2) ⊤ (𝑥1, 𝑥2, 𝑥3) ⊤ (𝑥1, ⋯ , 𝑥5) ⊤ 向量数据 𝐱1, . . , 𝐱𝑛 ∈ 𝑅 数据矩阵 𝑝 按行排列组成 𝑛 × 𝑝数据矩阵: 𝑋 = 𝐱1 ⊤ ⋮ 𝐱𝑛 ⊤ = 𝑥11 ⋯ 𝑥1𝑝 ⋮ ⋱ ⋮ 𝑥𝑛1 ⋯ 𝑥𝑛𝑝 ∈ 𝑅 𝑛×𝑝 注意这里的𝑋不是回归分析中的设计阵。一元线性回归模型一般认 为不属于多元分析, 这是因为主要研究对象响应变量是一元变量; 如果响应是多元的(即多元线性回归)则属于多元分析

前半学期:Normal后半学期:Singular课程内容主要内容多元正态(normal奇异值分解(singularvaluedistribution),理解高维decomposition),统计学习主要工具多变量微积分线性代数参考书R.JohnsonandD.WichernM.Bilodeau,D.Brenner(1999)Theory of(2008)实用多元统计分析第6版,英文版中文版(8Multivariate Statistics12章)Springer(2-9章)大纲·球对称分布·多元正态··奇异值分解·主成分分析、卡方·高斯图模型·马氏双标图·因子分析·结构方随机场·Wishart分布程模型·对应分析·典则相·Hotelling'sT2检验·多元关分析·距离与相似系数方差分析MANOVA·多元配列·多维标度法·聚类·分类线性模型A
后半学期:Singular 奇异值分解(singular value decomposition), 统计学习 线性代数 R.Johnson and D.Wichern (2008) 实用多元统计分析, 第6版,英文版/中文版 (8- 12章) ⦁奇异值分解⦁主成分分析、 双标图 ⦁因子分析 ⦁结构方 程模型 ⦁对应分析 ⦁典则相 关分析 ⦁距离与相似系数 ⦁ 配列 ⦁多维标度法 ⦁聚类 ⦁分 类 4 课程内容 前半学期:Normal 主要内容 多元正态(normal distribution),理解高维 主要工具 多变量微积分 参考书 M.Bilodeau, D.Brenner (1999) Theory of Multivariate Statistics. Springer (2-9章) 大纲 ⦁球对称分布 ⦁多元正态 ⦁ 卡方 ⦁高斯图模型 ⦁马氏 随机场 ⦁Wishart分布 ⦁Hotelling’s T 2 检验 ⦁多元 方差分析MANOVA ⦁多元 线性模型

F.Husson, S.Le, J.Pages(2017) Exploratory Multivariate其它参AnalysisbyExampleUsingR.CRC(法)考书应用(250页),仅含主成分分析,对应分析。法国学派。我们只采用其中一或两个数据例子。T.W.Anderson (2003)An Introduction to MultivariateStatisticalAnalysis,Wiley,3rded(美,许宝的学生)理论、经典全面(700+页)、无实际例子,供查阅。K.V.Mardia,J.T.Kent,J.M.Bibby (1979,2024)MultivariateAnalysis,AcademicPress(英)理论、经典(400页)(无电子版)。RobbJ.Muirhead(2005)AspectsofMultivariateAuch(美)Statistical Theory, 2nd ed., Wiley理论,Jacobian,外微分。R. Horn, C. Johnson (2013) Matrix Analysis, 2nd edCambridge University Press.这些书目一般不需要翻看。当需要阅读参考书的某些章节时,我们会在课程主页“阅读材料”中指定。u
5 T.W.Anderson (2003) An Introduction to Multivariate Statistical Analysis, Wiley, 3rd ed(美,许宝騄的学生) 理论、经典(400页) (无电子版)。 理论、经典全面(700+页)、无实际例子,供查阅。 K.V.Mardia, J.T.Kent, J.M.Bibby (1979, 2024) Multivariate Analysis, Academic Press (英) 其它参 考书 F.Husson, S.Le, J.Pages(2017) Exploratory Multivariate Analysis by Example Using R. CRC(法) 应用(250页),仅含主成分分析,对应分析。法 国学派。我们只采用其中一或两个数据例子。 R. Horn, C. Johnson (2013) Matrix Analysis, 2nd ed. Cambridge University Press. Robb J. Muirhead (2005) Aspects of Multivariate Statistical Theory, 2nd ed., Wiley (美) 理论,Jacobian,外微分。 这些书目一般不需要翻看。当需要阅读参考书的某 些章节时,我们会在课程主页“阅读材料”中指定

数据可视化TheRGraphGallery(https://r-graph-gallery.com/)列举了常见的数据可视化工具:MValitDeraltRitpelrSranatTime Seietnepiotacked aesCorelationAwBubsConrwcied scatsDenity2dCrorsHeitbin mapCangianCaiscdloButbieRanikinPYTHONaVORDWerdodPiralelCrelarBaepidBsiplitSpidir/RadierLlpophorNaiwrSatoArs SagranCopeondnPant ofaiwholeGeneralknowledgeO站l国ggplot25niaciveCarveDatadonga6
6 数据可视化 The R Graph Gallery (https://r-graph-gallery.com/)列举了常见的数据可视化工具:

散点图:plot一元数据分布:直方图,盒型图,枝叶图散点图/实轴描点有助于了解一维数据的大小次序、间隔其至分布。比如数轴点“随机取10个点”通常指的是从均匀分布中产生10个随机数,其均匀性如何表现?下面产生10个[011区间上的均匀随机数!(0.389,0.583,0.095,0.853, 0.787,0.119, 0.606,0.081,0.391,0.619)0可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之间的间隔(spacing)差别较大,容易出现聚簇(样本量较大时,每个局部都是如此)。简单情形:一个U(0,1)随机数将[0,1]区间划分成2段,较小一段的期望为1/4;两个U(0,1)随机数将[0,1]区间划分成3段,最小段的期望等于1/9,最小段长度小于0.1的概率大约为0.5
7 实轴描点有助于了解一维数据的大小次序、间隔甚至分布。比如, “随机取10个点”通常指的是从均匀分布中产生10个随机数, 其 均匀性如何表现?下面产生10个[0,1]区间上的均匀随机数: 散点图/ 数轴点 x=(0.389, 0.583, 0.095, 0.853, 0.787, 0.119, 0.606, 0.081, 0.391, 0.619) 可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之 间的间隔(spacing) 差别较大,容易出现聚簇(样本量较大时, 每个局部都是如此)。 简单情形: • 一个𝑈 0,1 随机数将[0,1]区间划分成2段,较小一段的期望为1/4; • 两个𝑈 0,1 随机数将[0,1]区间划分成3段,最小段的期望等于1/9, 最小段长度小于0.1的概率大约为0.5 • 散点图:plot 一元数据 • 分布:直方图 ,盒型图 ,枝叶图

般结果:假设x1,,xnid~U(o,1),从小到大排列记为次序统计量Spacing/间隔x(1)≤≤x(n),间隔spacing定义为:d;= x(i) - x(i-1),i = 1, ,n + 1, 其中x(o) = 0, x(n+1) =1,已知事实:1间隔期望相同:E(di)=n+1次序统计量服从{(t1,,tn):0≤ti≤≤tn≤1)上的均匀分布d1,,dn+1服从均匀分布U(A),△={(d1,..,dn+1):di;≥O, di +... + dn+i= 1}。问题:. P(min(di) < t) =?. E(min(di)) = 1/(n + 1)2 ?8
8 一般结果: 假设 𝑥1, . , 𝑥𝑛 𝑖𝑖𝑑 ~𝑈 0,1 ,从小到大排列记为次序统计量 𝑥(1) ≤ ⋯ ≤ 𝑥(𝑛) , 间隔spacing定义为: 𝑑𝑖= 𝑥(𝑖) − 𝑥 𝑖−1 , 𝑖 = 1, . , 𝑛 + 1, 其中𝑥(0) = 0, 𝑥(𝑛+1) =1, 问题: • P min 𝑑𝑖 < 𝑡 =? • 𝐸 min 𝑑𝑖 = 1/(𝑛 + 1) 2 ? 已知事实: • 间隔期望相同: 𝐸 𝑑𝑖 = 1 𝑛+1 • 次序统计量服从{ (𝑡1, . ,𝑡𝑛 ):0 ≤ 𝑡1 ≤ ⋯ ≤ 𝑡𝑛 ≤ 1}上的均匀分布。 • 𝑑1, . , 𝑑𝑛+1 服从均匀分布𝑈(Δ), Δ = { 𝑑1, . , 𝑑𝑛+1 : 𝑑𝑖≥ 0, 𝑑1+ ⋯ + 𝑑𝑛+1= 1}。 Spacing/ 间隔

> boxplot(x) :分布Interquantilerange(度量分散程度):0.6175IQR=75%分位数一25%分位数IQR0.61750.18750.1875>hist(x, prob=T) :> stem(x)Thedecimal point is 1 digit(s)to the leftof the0|89221994186|1298/5o0.00.20.4 0.60.89
9 > boxplot(x) : > hist(x,prob=T) : IQR Interquantile range (度量分散程度): IQR=75%分位数−25%分位数 =0.6175 − 0.1875 分布 0.6175 0.1875 > stem(x)

二元散点图:plot二元数据二元分布:image,persp,contour散点图(scatterplot)是最基本、也是最重要的数据展示方法。散点图例1.纸张的强度在机器制造方向(MD:machinedirection)和与之垂直的方向(CD:crossdirection)有所不同,课本Tablel.2(数据集:paper)提供了41张纸张的三项指标:x-StrengthMD,y=StrengthCD,z-Density(密度)。两个strength正相关数据聚簇为两类透视图(perspective)、热图(heatmap)、等高线二元分布图(contour)刻画二元数据(x,y)的分布:persp()image(),contour()##kde2d估计概率密度library(MASS)k<-kde2d(paperl,2],paperl,3),n=25)#n:x,y轴划分区间的个数#二维变量的密度函数(左)和概率密度的热图、等高线图:persp(k,xlab="x",ylab="y",zlab="Prob.density",theta=30)image(k,xlab="Strength_MD",ylab="Strength_CD")10contour(k,add=TRUE,drawlabels =FALSE,nlevels=6)
10 散点图 散点图(scatter plot)是最基本、也是最重要的数据展示方法。 例1. 纸张的强度在机器制造方向(MD:machine direction) 和与之垂直的方向(CD:cross direction)有所不同,课 本Table1.2(数据集:paper )提供了41张纸张的三项指标: x=Strength_MD, y=Strength_CD, z=Density (密度)。 两个strength正相 关数据聚簇为两类 • 二元散点图: plot 二元数据 • 二元分布:image, persp, contour 二元分布 透视图(perspective)、热图(heat map)、等高线 图(contour)刻画二元数据(x,y)的分布: persp() image(), contour() ## kde2d估计概率密度 library(MASS) k <- kde2d(paper[,2],paper[,3], n=25) #n: x,y轴划分区间的个数 #二维变量的密度函数(左)和概率密度的热图、等高线图: persp(k, xlab="x", ylab="y",zlab="Prob. density",theta=30 ) image(k, xlab="Strength_MD", ylab="Strength_CD" ) contour(k, add = TRUE, drawlabels = FALSE,nlevels=6)