文本学习与自然语言理解 文本学习中的概率图模型、矩阵 方法与变量求解 徐悦甡 ysxu@xidian.edu.cn 计算机科学与技术学院 西安电子科技大学
文本学习中的概率图模型、矩阵 方法与变量求解 文本学习与自然语言理解 徐悦甡 ysxu@xidian.edu.cn 计算机科学与技术学院 西安电子科技大学
目录 历些毛子代枚大多 XIDIAN UNIVERSITY 口应用与背景 口语言模型 口主题模型-隐语义分析与矩阵分解 Latent Semantic Indexing (LSA),SVD and MF ▣主题模型-概率隐语义分析 Probabilistic Latent Semantic Indexing(pLSA) 口多项式分布、狄利克雷分布与共轭 Conjugate Prior,Dirichlet Distribution and Conjugate ▣主题模型-隐狄利克雷分布 Latent Dirichlet Allocation (LDA) 3/15/2020 2 计算机科学与技术学院
目录 应用与背景 语言模型 主题模型-隐语义分析与矩阵分解 Latent Semantic Indexing (LSA), SVD and MF 主题模型-概率隐语义分析 Probabilistic Latent Semantic Indexing (pLSA) 多项式分布、狄利克雷分布与共轭 Conjugate Prior, Dirichlet Distribution and Conjugate 主题模型-隐狄利克雷分布 Latent Dirichlet Allocation (LDA) 3/15/2020 2 计算机科学与技术学院
Outline 历些毛子科枝大学 XIDIAN UNIVERSITY ▣马尔可夫链-蒙特卡罗 Markov Chain Monte Carlo (MCMC) Metropolis-Hastings Sampling (MH) 口吉布斯采样 ■Gibbs Sampling 口变分分布与变分推断 Variational Distribution and Variational Inference (VD &VI) ▣最大期望与最大似然估计 ■ Expectation-Maximization Algorithm (EM)&Maximum-Likelihood Estimation(MLE) ▣非参数贝叶斯学习与狄利克雷过程 3/15/2020 计算机科学与技术学院
Outline 马尔可夫链-蒙特卡罗 Markov Chain Monte Carlo (MCMC) Metropolis-Hastings Sampling (MH) 吉布斯采样 Gibbs Sampling 变分分布与变分推断 Variational Distribution and Variational Inference (VD &VI) 最大期望与最大似然估计 Expectation-Maximization Algorithm (EM) & Maximum-Likelihood Estimation (MLE) 非参数贝叶斯学习与狄利克雷过程 3/15/2020 3 计算机科学与技术学院
应用与背景 历些毛子科枚大多 XIDIAN UNIVERSITY ▣分词Segmentation ■我是一名大学老师→我/是/一名/大学/老师 ▣词性标注Part of speech(POS): I am a teacher>I(pronoun)am (copula)a (article)teacher(noun) ▣依赖解析Dependency parsing: root tmod punct punct nsubj advmod det advmod aux advmad -Root- This time around,they re moving even faster 3/15/2020 计算机科学与技术学院
应用与背景 分词 Segmentation 我是一名大学老师 我 / 是 / 一名 / 大学 / 老师 词性标注 Part of speech (POS): I am a teacher I (pronoun) am (copula) a (article) teacher (noun) 依赖解析 Dependency parsing: 3/15/2020 4 计算机科学与技术学院
应用与背景 历些毛子种枝大等 XIDIAN UNIVERSITY 口语义消歧 Text:Steven Jobs had left us for about two years.....the apple's price will fall down.... ▣共指指代Coreference ■小明和小江去吃饭,他说饭很好吃→他? ▣命名实体识别 口摘要生成 ▣关系抽取 口文本聚类 3/15/2020 计算机科学与技术学院
应用与背景 语义消歧 Text: Steven Jobs had left us for about two years…..the apple’s price will fall down…. 共指指代 Coreference 小明和小江去吃饭,他说饭很好吃 他? 命名实体识别 摘要生成 关系抽取 文本聚类 3/15/2020 5 计算机科学与技术学院
应用与背景 历些毛子科枚大多 XIDIAN UNIVERSITY ▣主题建模 Corpus 继续实施稳健的货币政策,保 从员额上来看,这次改革远远超 持松紧适度适时预调微调,做 过了裁军的数量,它是一种结构 好与供给侧结构,并综合运用 性的改革,是军队组织结构现代 Doc4 Dod3 数量、价格等多种货币政策 化的一个关键步骤 美元作为主要国际货币的地位在 独立学院从母体高校“断奶”后 可预见的将来仍无可取代,唯一 可能会面临品牌、招生等方面阵 的出路是推动全球治理向更均衡 痛,但是在国家和省市鼓励民间 Doc1 的方向发展。国际货币基金组织 资本进入教育领域的实施意见发 布后,一些独立学院果断切割连 Doc2 总裁拉加德日前在美国马里兰大 学演讲时就呼吁,国际治理改革 接母体大学的“脐带”,自立门 应认清新兴经济体越来越重要这 户发展。 一现实。 3/15/2020 计算机科学与技术学院
应用与背景 主题建模 3/15/2020 6 计算机科学与技术学院 继续实施稳健的货币政策,保 持松紧适度适时预调微调,做 好与供给侧结构,并综合运用 数量、价格等多种货币政策 从员额上来看,这次改革远远超 过了裁军的数量,它是一种结构 性的改革,是军队组织结构现代 化的一个关键步骤 美元作为主要国际货币的地位在 可预见的将来仍无可取代,唯一 的出路是推动全球治理向更均衡 的方向发展。国际货币基金组织 总裁拉加德日前在美国马里兰大 学演讲时就呼吁,国际治理改革 应认清新兴经济体越来越重要这 一现实。 独立学院从母体高校“断奶”后, 可能会面临品牌、招生等方面阵 痛,但是在国家和省市鼓励民间 资本进入教育领域的实施意见发 布后,一些独立学院果断切割连 接母体大学的“脐带”,自立门 户发展。 Corpus Doc1 Doc2 Doc3 Doc4
应用与背景 历些毛子种枝大” XIDIAN UNIVERSITY ▣主题建模 Corpus Topic 金融0.074 货币 0.051 继续实施稳健的货政策,保 从员额上来看,这次改革远远 c3持松紧适度适时预调微调,做 4 超过了裁军的数量,它是一种 Topic 政策0.082 好与供给侧结构,并综合运用 结构性的改革,是军队组织结 2 改革0.063 数量、价格等多种货政策 构现代化的一个关键步骤 Topic 美元作为主要国际货市的地位 学 0.077 独立学院从母体高校“断奶” 教育 0.071 在可预见的将来仍无可取代, 唯一的出路是推动全球治理向 后,可能会面临品隙招生等 Doc1更均德的方向发展。国际货市 方面阵痛,但是在国家和省市 Topic 军队0.083 基金组织总裁拉加德日前在美 Doc2 鼓励民间资进入教育领域的 4 组织0079 国马里兰大演讲时就呼吁 实施意见发布后,一 些独立学 国际治理改革应认清新兴经济 院果断切割连接母体大学的 体越来越重要这一现实。 “脐带” ,自立门户发展。 topic1 topic2 topic3 topic4 金融 政策 学院 军队 货币 改革 改革 结构 改革 组织 教育 组织 结构 国际 高校 超过 大学 国家 招生 裁军
Topic 3 应用与背景 主题建模 继续实施稳健的货币政策,保 持松紧适度适时预调微调,做 好与供给侧结构,并综合运用 数量、价格等多种货币政策 政策 0.082 改革 0.063 … 金融 0.074 货币 0.051 … 学院 0.077 教育 0.071 … 军队 0.083 组织 0.079 … 从员额上来看,这次改革远远 超过了裁军的数量,它是一种 结构性的改革,是军队组织结 构现代化的一个关键步骤 美元作为主要国际货币的地位 在可预见的将来仍无可取代, 唯一的出路是推动全球治理向 更均衡的方向发展。国际货币 基金组织总裁拉加德日前在美 国马里兰大学演讲时就呼吁, 国际治理改革应认清新兴经济 体越来越重要这一现实。 独立学院从母体高校“断奶” 后,可能会面临品牌、招生等 方面阵痛,但是在国家和省市 鼓励民间资本进入教育领域的 实施意见发布后,一些独立学 院果断切割连接母体大学的 “脐带”,自立门户发展。 … … … … Corpus Doc1 Doc2 Doc3 Doc4 Topic 2 Topic 4 Topic 1 topic1 topic2 topic3 topic4
应用与背景 历些莞子种拔大乡 XIDIAN UNIVERSITY ▣层次主题模型 查食省查自 PU5会词 6月1上铅,恋觉屏草很不错屏,显示器:2%NTSC,笔记本显示器有这样的色域非常可以了,显示效果真的非常赞 包装外观:外包装和笔记本都挺好看的,笔记本A面000发光效果很骚:C面键盘灯光单一没华硕飞行堡垒第七代RGB键盘的好 CPU:新一代的5(第九代5)性比第七代7路强,4核8线程CPU,5-9300H生频2.4GH,最大会频4.1G,,零频随便达到 4G化,证明敬热性能真的非常不错,三级缓存8M 内存条:对性能零求较高的宝宝建议上多一条内存条(金士顿笔记本骇客神条DDR42666)组成双通道后性能的提离你可以明显感 受得到 GPU:显卡性能比GTX-1050T强30%这样,跑分12完多-一点,通近GTX-1060 硬盘:最后还得夸一下,这次回态直接1T了,还是M2NVME类型的,目前兵用性能最强的国态 敬热器:这次直接双数热饲言铺盖GU以及CPU的位置,散热风扇也很绘力.玩游戏开野曾模式温度稳稳控制使得GPL和CPU温度得 到控制,不会频总结:这次用料非常可以 缺点: 上,键密灯光单词 2 内存条只配备了单条DDR42666内存条,现在内 3/15/2020 计算机科学与技术学院
应用与背景 层次主题模型 3/15/2020 8 计算机科学与技术学院
应用与背景 面些毛子种枝大” XIDIAN UNIVERSITY ▣层次主题模型 Laptops (0)laptop used computer get will screen just work +like windows screen great work new macbook look (-)battery screen hour problem time windows hp drive Performance Screen Battery Service 8an9s8 (0)service support customer laptop (-drive gb hard ram external need grea warranty amazon service yea )glossy black see review rest feel (-)battery hour life time will less (-)problem support customer call Graphics Card Screen Size Portability Support Warranty (0)ram card graphic video memory 0)screen inch laptop new previous O)laptop around carry portable 0)support service tech call phone (+gb ram perform game better fps +inch resolution solid like size (+)laptop size carry perfect small +year warranty accident protect (-)gb video ram dedicate upgrade -resolution inch small display (-)battery life hour normal half (-support call tech hour took time CPU Screen Quality Visibility Battery Life Repair (0)core processor intel duo ghz (O)screen led backlight ld bright O)battery hour life get computer 0)repair send back replace ship (+core intel dual fast duo cpu ghz +led screen color bright really (+)battery hour good last long send repair serice back sent unit (-)intel amd old atom power lower (-)screen glare issue glossy reflect (-)battery life power less evenfast (-back ship day send week away 3/15/2020 计算机科学与技术学院
应用与背景 层次主题模型 3/15/2020 9 计算机科学与技术学院
应用与背景 历些毛子科枚大多 XIDIAN UNIVERSITY ▣神经网络时代之前的时代 ■如何来解决以上问题? 概率图模型 ■性能比基于神经网络且认真调参的方法差一点,但几乎每一步 的中间结果都具有清晰的解释性 3/15/2020 10 计算机科学与技术学院
应用与背景 神经网络时代之前的时代 如何来解决以上问题? 3/15/2020 10 计算机科学与技术学院 概率图模型 性能比基于神经网络且认真调参的方法差一点,但几乎每一步 的中间结果都具有清晰的解释性