
第十三讲因子分析当现象不能解释时,寻找潜变量f
第十三讲 因子分析 1 1 x 2 x f 当现象不能解释时,寻找潜变量𝑓

背景1:主成分变换的反变换-生成模型随机向量xpx1的主成分变换:y=VTx→逆变换:正交基展开/生X = Vy = Viy1 +. + Vpypi成模型其中 ≥ 2 ≥... ≥ p ≥ 0, var(yi) = i.口x=Vy是正交展开表示:x表示为正交基v,…,Vp的线性组合,系数为主成分y1,…,yp口x=Vy是生成模型:x由一组不相关的r.v.y1,,yp生成。PCA保留上述正交展开的前m项,舍弃em=Vm+1Ym+1++Vpyp最佳逼用于逼近x:近X=Viy1+...+Vmym+em=Vmym+em其中Vm = (V1,.,Vm),ym = (y1, .,ym)TX~ V1Y1 +...+Vmym由Eckart-Young-Mirsky定理,这是最佳逼近(参见后面)。2
2 背景1:主成分变换的反变换-生成模型 正交基 展开/生 成模型 最佳逼 近 随机向量𝐱𝑝×1的主成分变换:𝐲 = 𝑉 ⊤ 𝐱 ⇒逆变换: 𝐱 = 𝑉𝐲 = 𝐯1𝑦1 + ⋯ + 𝐯𝑝𝑦𝑝, 其中 𝜆1 ≥ 𝜆2 ≥. ≥ 𝜆𝑝 ≥ 0, var 𝑦𝑖 = 𝜆𝒊 . 𝐱 = 𝑉𝐲 是正交展开表示: 𝐱表示为正交基𝐯1, . , 𝐯𝑝的线性组合,系数为主成分𝑦1, . , 𝑦𝑝. 𝐱 = 𝑉𝐲 是生成模型: 𝐱由一组不相关的 𝑟. 𝑣. 𝑦1 , . , 𝑦𝑝生成。 PCA保留上述正交展开的前𝑚项,舍弃𝒆𝑚 = 𝐯𝑚+1𝑦𝑚+𝟏 + ⋯ + 𝐯𝑝𝑦𝑝, 用于逼近𝐱: 𝐱 = 𝐯1𝑦1 + ⋯ + 𝐯𝑚𝑦𝑚 + 𝒆𝑚 = 𝑉𝑚𝐲𝑚 + 𝒆𝑚, 其中𝑉𝑚 = 𝐯1, . , 𝐯𝑚 , 𝐲𝑚 = (𝑦1, . , 𝑦𝑚) ⊤ 𝐱 ≈ 𝐯1𝑦1 + ⋯ + 𝐯𝑚𝑦𝑚 由Eckart-Young-Mirsky定理,这是最佳逼近(参见后面)

X= Vmym +em主成分是潜变量口x可以观测,主成分v是从x推断得到的(不可直接观测)。口PCA以少数主成分/潜变量解释可观测变量x的相关性。将PCA表示x=Vmym+em一般化,我们有如下因子模型,PCA拓展也称为概率PCA模型:对于任何p×1随机向量x可以观测,假设存在m<p个不可观测的潜变量(称为因子),使得X=Lf+E,EIf其中?是x中f所不能解释的部分,称为误差/个性因子。注意,这看起来是一个线性回归模型(确实是),但其中的f是不可直接观测的(没有数据)。我们将在后面详细讨论因子模型。3
3 将PCA表示𝐱 = 𝑉𝑚𝐲𝑚 + 𝒆𝑚一般化,我们有如下因子模型, 也称为概率PCA模型: 主成分是 潜变量 𝐱 = 𝑉𝑚𝐲𝑚 + 𝒆𝑚 𝐱可以观测,主成分 𝐲是从𝐱推断得到的(不可直接观测)。 PCA以少数主成分/潜变量解释可观测变量𝐱的相关性。 PCA拓展 对于任何𝑝 × 1随机向量𝐱可以观测,假设存在𝑚 < 𝑝个不 可观测的潜变量(称为因子),使得 𝐱 = 𝐿𝐟 + 𝛆, 𝛆 ⫫ 𝐟 其中𝛆是𝐱 中𝐟所不能解释的部分,称为误差/个性因子。 注意,这看起来是一个线性回归模型(确实是),但其中的𝐟 是不可直接观测的(没有数据)。我们将在后面详细讨论因子 模型

随机函数或随机过程存在与PCA类似的Karhunen-Loeve展开:任一随机函数随机函数(随机过程)可表示为相互正交的常函数的线性组合,的主成分组合系数互不相关。Mercer定理(谱分解):假设二元连续函数K(s,t)是对称正定的:定义线性变换K(s,)f(s)ds(Tf)O) =则存在常数入k≥0和正交基函数Vk使得K(s,t)vk(s)ds = ΛkVk(t),k = 1,2,..TVk(t) = 即ak,Vk(t)是线性变换Tf =『K(s,)f(s)ds的特征根和特征函数。则存在谱分解K(s,t) =NkVk(s)Vk(t) 。k=1
4 Mercer定理(谱分解): 假设二元连续函数𝐾 𝑠,𝑡 是对称正定的, 定义线性变换 (𝑇𝑓)(∙) = න 𝐾 𝑠,∙ 𝑓 𝑠 𝑑𝑠 则存在常数𝜆𝑘 ≥ 0和正交基函数𝑣𝑘 ∙ 使得 𝑇𝑣𝑘(𝑡) = න𝐾 𝑠,𝑡 𝑣𝑘 𝑠 𝑑𝑠 = 𝜆𝑘𝑣𝑘 𝑡 , 𝑘 = 1,2, . 即𝜆𝑘,𝑣𝑘 𝑡 是线性变换𝑇𝑓 = �𝑑� �� �� ∙,�� ��的特征根和特征函 数。则存在谱分解 𝐾 𝑠,𝑡 = 𝑘=1 ∞ 𝜆𝑘𝑣𝑘 𝑠 𝑣𝑘 𝑡 。 随机函数或随机过程存在与PCA类似的Karhunen-Loève展开: 任一 随机函数(随机过程)可表示为相互正交的常函数的线性组合, 组合系数互不相关。 随机函数 的主成分

Karhunen-Loeve定理xt=x(t)是平方可积的随机过程,tER,E(xt)=0,假设协方差函数K(s,t)=cov(xs,xt)是正定函数,有谱分解K(s,t) = Zk=1 MkVk(s)Vk(t),其中常函数vk(t),k=1,2,...是线性变换Tf=『K(s,)f(s)ds的特征函数,相互正交模长为1。定义主成分为x(t)在方向Vk(t)上的投影坐标:Yk = J xtVk(t)dt则xt有正交展开80YkVk(t)Xt =其中 E(yk) = 0, var(yk) = Λk,cov(yk,yj) = 0
5 Karhunen-Loève定理. 𝑥𝑡 = 𝑥(𝑡)是平方可积的随机过程, 𝑡 ∈ 𝑅, 𝐸 𝑥𝑡 = 0, 假设协方差 函数𝐾 𝑠,𝑡 = 𝑐𝑜𝑣(𝑥𝑠 , 𝑥𝑡 )是正定函数,有谱分解 𝐾 𝑠,𝑡 = σ𝑘=1 ∞ 𝜆𝑘𝑣𝑘 𝑠 𝑣𝑘 𝑡 , 其中常函数𝑣𝑘 𝑡 , 𝑘 = 1,2, . 是线性变换 𝑇𝑓 = �𝑑� �� �� ∙,�� ��的特 征函数,相互正交模长为1。定义主成分为𝑥(𝑡)在方向𝑣𝑘 𝑡 上的投 影坐标: �𝑑� �� �𝑣𝑡𝑥� = �𝑦� 则 𝑥𝑡有正交展开 𝑥𝑡 = 𝑘=1 ∞ 𝑦𝑘𝑣𝑘 𝑡 其中 𝐸(𝑦𝑘) = 0, 𝑣𝑎𝑟 𝑦𝑘 = 𝜆𝑘, 𝑐𝑜𝑣(𝑦𝑘, 𝑦𝑗) = 0

背景2:潜变量模型当现象不能被观察到的事实依据所解释时,是否遗漏了一个维度/潜变量素/变量?若遗漏的变量可观测,则是回归问题;若不可观测,则是潜变量模型(隐变量、因子变量)。潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制,“透过现象看本质”描述的正是潜变量模型物理学中的隐变量模型:物理学中的隐变量理论是因物理学家质疑量子力学完备性而提出的替代理论。一些物理学家如爱因斯坦,认为量子力学并未完整地描述物理系统的状态,亦即质疑量子力学是不完备的,因此量子力学的背后应该隐藏了一个尚未发现的理论,可以完整解释物理系统所有可观测量的演化行为,而避免掉任何不确定性或随机性。历史上爱因斯坦是隐变量理论的主要倡导者,出于对标准量子力学诠释的概率性解释的不满。他曾说:“我相信上帝不般子。”1935年,爱因斯坦与波多尔斯基、罗森共同提出的EPR伴谬(以姓氏字首为缩写)试图对哥本哈根诠释做出挑战,论文中指出隐变量应该加入量子力学中,俾使在量子纠缠现象中不会出现鬼魅般的超距作用。在提出后,争辩一直停留在物理哲学的范畴,直到贝尔不等式提出之后方得区分两者差异。实验证实:一定类型的局域隐变量理论与实验结果不相符,包括EPR伴谬中提出的诠释。6
6 背景2:潜变量模型 当现象不能被观察到的事实依据所解释时,是否遗漏了一个维度/因 素/变量? 若遗漏的变量可观测,则是回归问题;若不可观测,则 是潜变量模型(隐变量、因子变量)。 潜变量模型假设可观测现象由不可观测的潜变量或隐变量所控制, “透过现象看本质”描述的正是潜变量模型。 物理学中的隐变量模型: 物理学中的隐变量理论是因物理学家质疑量子力学 完备性而提出的替代理论。一些物理学家如爱因斯坦,认为量子力学并未完 整地描述物理系统的状态,亦即质疑量子力学是不完备的,因此量子力学的 背后应该隐藏了一个尚未发现的理论,可以完整解释物理系统所有可观测量 的演化行为,而避免掉任何不确定性或随机性。 历史上爱因斯坦是隐变量理论的主要倡导者,出于对标准量子力学诠释的概 率性解释的不满。他曾说:“我相信上帝不掷骰子。” 1935年,爱因斯坦 与波多尔斯基、罗森共同提出的EPR佯谬(以姓氏字首为缩写)试图对哥本 哈根诠释做出挑战,论文中指出隐变量应该加入量子力学中,俾使在量子纠 缠现象中不会出现鬼魅般的超距作用。在提出后,争辩一直停留在物理哲学 的范畴,直到贝尔不等式提出之后方得区分两者差异。实验证实:一定类型 的局域隐变量理论与实验结果不相符,包括EPR佯谬中提出的诠释。 潜变量

外显变量/可观测变量:manifestvariable,response潜变量模型潜变量/隐变量/因子:latentvariable,hiddenvariable,factor.潜变量统计模型大致可以如下划分:Latent variablesManifestvariablesCategoricalContinuousContinuousFactoranalysisItem response theoryCategoricalLatentprofileanalysisLatentclassanalysis潜变量模型例子:口教育/心理测量学中的因子分析:通过题目(item)测试结果(response)推断能力、性格等隐变量(latenttrait),相关模型方法称为因子分析(factoranalysis)Itemresponsetheory、latenttraitanalysis口自然语言处理中的topicmodel:从文本语言特点推断主题的模型;口HiddenMarkovModel(HMM):隐藏的马氏过程控制观察变量,在热力学、化学、信号处理、模式识别中有重要应用。口资产定价的Fama-French三因子模型:投资组合的收益可以由市场风险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。口聚类分析、混合模型、零膨胀泊松:从不同类别混合构成的数据中推断潜在类别变量
7 潜变量模型例子: 教育/心理测量学中的因子分析: 通过题目(item)测试结果(response)推 断能力、性格等隐变量(latent trait), 相关模型方法称为因子分析 (factor analysis)、Item response theory、latent trait analysis. 自然语言处理中的topic model: 从文本语言特点推断主题的模型; Hidden Markov Model (HMM): 隐藏的马氏过程控制观察变量,在热 力学、化学、信号处理、模式识别中有重要应用。 资产定价的Fama-French 三因子模型:投资组合的收益可以由市场风 险、市值风险、账面市值比风险等三个潜在因素/因子共同解释。 聚类分析、混合模型、零膨胀泊松:从不同类别混合构成的数据中 推断潜在类别变量。 潜变量 模型 Latent variables Manifest variables Continuous Categorical Continuous Factor analysis Item response theory Categorical Latent profile analysis Latent class analysis 外显变量/可观测变量:manifest variable,response 潜变量/隐变量/因子:latent variable,hidden variable,factor. 潜变量统计模型大致可以如下划分:

例1(a)Probit model假设0-1响应y取值与自变量x有关,如何建立两者之间的关系?Probit模型假设存在一个连续潜变量z控制y显现为0还是1:(1,z>0M(0,z≤0假设z与自变量x存在正态线性模型关系:z|x~N(a + bTx, 1),则E(ylx) = P(y = 1x) = P(z > 0|x) = Φ(α + bTx)该模型描述了响应y关于自变量x的非线性回归关系。与Pobit模型类似,但不假设正态因变量的模型是logistic回归模型:exp(a + bTx)E(ylx) = P(y = 1|x) = 1 + exp(α + bTx)在0-1数据分析中,logistic回归应用更为广泛,但probit与之类似。8
8 例1(a) Probit model 假设0-1响应𝑦取值与自变量𝐱有关,如何建立两者之间的关系? Probit模型假设存在一个连续潜变量 𝑧 控制𝑦显现为0还是1: 𝑦 = ቊ 1, 𝑧 > 0 0, 𝑧 ≤ 0 假设𝑧 与自变量𝐱存在正态线性模型关系: 𝑧|𝐱~𝑁 𝑎 + 𝐛 ⊤𝐱, 1 , 则 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = 𝑃 𝑧 > 0 𝐱 = Φ 𝑎 + 𝐛 ⊤𝐱 . 该模型描述了响应𝑦关于自变量𝐱的非线性回归关系。 与Pobit模型类似,但不假设正态因变量的模型是logistic回归模型: 𝐸 𝑦 𝐱 = 𝑃 𝑦 = 1|𝐱 = exp(𝑎 + 𝐛 ⊤𝐱) 1 + exp(𝑎 + 𝐛⊤𝐱) 在0-1数据分析中,logistic回归应用更为广泛,但probit与之类似

例1(b)Poissonover-dispersionmodel假设有独立计数数据y1,,yn,常见的模型是泊松分布Pois(a)。但如果样本方差远远大于样本均值(over-dispersion),则显然泊松假设不合理,这可能是因为泊松的均值受某些未考虑的变量x的影响而不是常数,比如yi | xi~Pois (axi)若x,可以观测到,则是回归问题。泊松回归模型假设yi|xi~Pois(exp(a+bTxi))即回归函数与X的关系如下:; ≤ E(yi|xi) =exp(a +bTxi)似然函数n2AiL(a, b) =Yi!i=1
9 即回归函数与𝐱𝑖的关系如下: 𝜆𝑖 ≜ 𝐸(𝑦𝑖|𝐱𝑖) = exp(𝑎 + 𝐛 ⊤𝐱𝑖) 似然函数 𝐿 𝑎, 𝐛 = ෑ 𝑖=1 𝑛 𝜆𝑖 𝑦𝑖 𝑦𝑖 ! 𝑒 −𝜆𝑖 . 例1(b) Poisson over-dispersion model 假设有独立计数数据𝑦1, . , 𝑦𝑛, 常见的模型是泊松分布𝑃𝑜𝑖𝑠(𝜆)。但如 果样本方差远远大于样本均值(over-dispersion),则显然泊松假设 不合理,这可能是因为泊松的均值受某些未考虑的变量𝑥𝑖的影响而不 是常数,比如 𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖) 若𝑥𝑖可以观测到,则是回归问题。泊松回归模型假设 𝑦𝑖|𝐱𝑖~Pois (exp(𝑎 + 𝐛 ⊤𝐱𝑖))

若Vi|x;~Pois(ax)中的x;~G(x)是潜变量,则其变化会导致泊松均值变化,生成其它计数分布模型:C(axi)k-ΛxidG(xi)P(yi = k) = Jk!口若假设xi~Gamma(α,α),则y;服从负二项分布,该分布常用于拟合over-dispersion的计数数据口若计数数据over-dispersion,且o过多(稀疏),我们可假设数据中出现的yi=o有两种可能:一种可能是yi~Pois(a),但观测到o个数;另外一种可能是yi~Pois(O),即yi=0。计数数据由这两种Poisson数据混合而成(Poissonmixture),潜变量操纵这两种可能。假设x;~B(1,p),则y;的边际分布为零膨胀泊松分布(Zero-inflatedPoisson):P(yi = k) = P(yi = k|xi = 1)p + qP(yi = k|xi = 0)ake-α + q1(k=0) EP-1,t-Mi,pi ≥ 0,pi = 1m个泊松混合:P(i=k)=Z1Pi110
10 若计数数据over-dispersion,且0过多(稀疏),我们可假设 数据中出现的𝑦𝑖 =0有两种可能:一种可能是𝑦𝑖~Pois (𝜆),但 观测到0个数;另外一种可能是𝑦𝑖~Pois (0),即𝑦𝑖 ≡ 0。计数 数据由这两种Poisson数据混合而成(Poisson mixture),潜变 量操纵这两种可能。假设𝑥𝑖~𝐵 1, 𝑝 , 则𝑦𝑖的边际分布为零膨 胀泊松分布(Zero-inflated Poisson): 𝑃 𝑦𝑖 = 𝑘 = 𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 1 𝑝 + 𝑞𝑃 𝑦𝑖 = 𝑘|𝑥𝑖 = 0 = 𝑝 𝜆 𝑘 𝑘! 𝑒 −𝜆 + 𝑞1(𝑘=0) . 若假设𝑥𝑖~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝛼),则𝑦𝑖服从负二项分布,该分布常用 于拟合over-dispersion的计数数据 若𝑦𝑖|𝑥𝑖~Pois (𝜆𝑥𝑖)中的𝑥𝑖~𝐺(𝑥)是潜变量,则其变化会导致泊松均值 变化, 生成其它计数分布模型: = �� = �𝑦� �� 𝜆𝑥𝑖 𝑘 𝑘! 𝑒 −𝜆𝑥𝑖 𝑑𝐺(𝑥𝑖) 𝑚个泊松混合: 𝑃 𝑦𝑖 = 𝑘 = σ𝑖=1 𝑚 𝑝𝑖 𝜆𝑖 𝑘 𝑘! 𝑒 −𝜆𝑖 , 𝑝𝑖 ≥ 0, σ 𝑝𝑖 = 1