HIT-SCIR 逻辑斯蒂回归与最大熵 HIT-SCIR 李泽魁 2013-11-22 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 逻辑斯蒂回归与最大熵 HIT-SCIR 李泽魁 2013-11-22
HIT-SCIR 目录 线性回归 逻辑斯蒂回归 最大熵模型 极大似然估计 模型学习浅谈 最大熵总结 最大熵应用举例(略) 最大熵源码分析(略) 最大熵包使用(略) 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 目录 • 线性回归 • 逻辑斯蒂回归 • 最大熵模型 • 极大似然估计 • 模型学习浅谈 • 最大熵总结 • 最大熵应用举例(略) • 最大熵源码分析(略) • 最大熵包使用(略) 2/79
(R HIT-SCIR 60线性回归 Linear regression) 15 -20-10 1020 50 单参数线性回归 Linear Regression with one variable 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 6.0 线性回归(Linear regression) 单参数线性回归 Linear Regression with one variable 3/79
(R HIT-SCIR 线性回归 Linear regression) 通俗解释 其想要做的就是发现自变量和因变量之间的某 种关联,即给定了自变量我们可以得到因变量 的值。 哈工大社会计算与信息检索研究中心 479
哈工大社会计算与信息检索研究中心 线性回归(Linear regression) • 通俗解释: – 其想要做的就是发现自变量和因变量之间的某 种关联,即给定了自变量我们可以得到因变量 的值。 4/79
(R HIT-SCIR 线性回归 Linear regression) 专业解释 线性回归模型是,种研究一个因变量( bepedent Variable)同 个或者多个自变量( Independent variable)之间关系的分析 方法 Yi=Bo+B1Xi1 +B2 Xi2+.+B Xip+ei y为因变量 beta为回归模型的常数项 K为自变量的个数 X1,x2,…,xK为自变量 beta1,beta2,,beta为自变量的系数 epsilon为随机扰动:表示那些不包含在自变量中但是仍然可 能对因变量产生影响的因素 哈工大社会计算与信息检索研究中心 579
哈工大社会计算与信息检索研究中心 线性回归(Linear regression) • 专业解释: – 线性回归模型是一种研究一个因变量(Depedent Variable)同 一个或者多个自变量(Independent Variable)之间关系的分析 方法. – y为因变量 – beta0为回归模型的常数项 – K为自变量的个数 – x1, x2, …, xK为自变量 – beta1, beta2, …, betaK为自变量的系数 – epsilon 为随机扰动: 表示那些不包含在自变量中但是仍然可 能对因变量产生影响的因素. 5/79
(R HIT-SCIR 线性回归 Linear regression) 式(1)F=B0+Bxx 式(2) Y=B+BX+BXX 式(3) 参数为F=e 那么 B=(0,B1 (1)ye es (2)yes,关于参数线性,通过基变换 basis expansions转化将非线性的自变量特征映射到新 的自变量特征。 3)no 哈工大社会计算与信息检索研究中心 679
哈工大社会计算与信息检索研究中心 线性回归(Linear regression) 式(1) 式(2) 式(3) 参数为 那么 (1)yes (2)yes,关于参数线性,通过基变换basis expansions转化将非线性的自变量特征映射到新 的自变量特征。 (3)no 6/79
HIT-SCIR 目录 线性回归 逻辑斯蒂回归 °最大熵模型 极大似然估计 模型学习浅谈 最大熵总结 最大熵应用举例(略) 最大熵源码分析(略) 最大熵包使用(略 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 目录 • 线性回归 • 逻辑斯蒂回归 • 最大熵模型 • 极大似然估计 • 模型学习浅谈 • 最大熵总结 • 最大熵应用举例(略) • 最大熵源码分析(略) • 最大熵包使用(略) 7/79
HIT-SCIR 对数线性模型 对数线性模型( og-linear model)是线性回归 模型的一个变形,因为使用原始数据的对数 建模而得名 对数线性模型的求解和线性回归模型没有 什么区别,不同是的对模型参数的解释:在对 数线性模型,模型参数代表的是因变量对自 变量的弹性(E=(△Y)/(△ⅩX 逻辑斯蒂回归和最大熵模型都属于对数线 性模型 哈工大社会计算与信息检索研究中心 8/79
哈工大社会计算与信息检索研究中心 对数线性模型 • 对数线性模型(log-linear model)是线性回归 模型的一个变形, 因为使用原始数据的对数 建模而得名. • 对数线性模型的求解和线性回归模型没有 什么区别, 不同是的对模型参数的解释: 在对 数线性模型, 模型参数代表的是因变量对自 变量的弹性(E=(△Y/Y) / (△X/X)). • 逻辑斯蒂回归和最大熵模型都属于对数线 性模型 8/79
HIT-SCIR 逻辑斯蒂回归 Logistic regression模型( Logit model)是离散 选择法模型之一,属于多重变量分析范畴, 是社会学、生物统计学、临床、数量心理 学、计量经济学、市场营销等统计实证分 析的常用方法。 (例子略) 哈工大社会计算与信息检索研究中心 979
哈工大社会计算与信息检索研究中心 逻辑斯蒂回归 • Logistic regression模型(Logit model)是离散 选择法模型之一,属于多重变量分析范畴, 是社会学、生物统计学、临床、数量心理 学、计量经济学、市场营销等统计实证分 析的常用方法。 • (例子略) 9/79
(R HIT-SCIR 61.1逻辑斯蒂回归分布 分布函数两种写法 0+1x 丌(x e/0+1x+11+e-(50+B1z) F(x)=P(X≤x)= 1+e-(x-a)/r 图像 0 # 6 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 6.1.1 逻辑斯蒂回归分布 • 分布函数 两种写法 • 图像 # 10/79