《大数据营销》课程教学大纲 一、课程基本信息 课程代码:16030502 课程名称:大数据营销 英文名称:Big Data Marketing 课程类别:专业课 学 时:32 学分:2 适用对象:市场营销等本科专业 考核方式:考试 先修课程:市场营销学,统计学 二、课程简介 大数据营销是一门实践性很强的课程,课程介绍了大数据营销的基本原理与 实务,通过对本课程的学习,使学生培养具有强烈的大数据营销意识与正确的大 数据营销观念,养成中国新时代下数据资产保护的意识,培养社会主义核心价值 观下的大数据营销意识,了解大数据营销的基本知识,掌握大数据营销的各种方 法、技能与技巧,能够从事企业的各种大数据营销工作。具体包括:社会网络分 析,文本分析:购物篮分析:用户画像等。 This course is a highly practical course.The course introduces the basic principles and practice of big data marketing.Through the study of this course,students can cultivate strong awareness of big data marketing and correct concept of big data marketing.develop the awareness of data asset protection in the new era of China,and cultivate the awareness of big data marketing under the socialist core values Basic knowledge of big data marketing,master various methods,skills and skills of big data marketing.and be able to engage in various big data marketing work of enterprises.It includes:social network analysis,text analysis,shopping basket analysis,user portrait, etc 三、课程性质与教学目的 本课程是市场营销的专业选修课程。通过课堂讲授和实训,使学生培养专业 的职业素养,诚信的调研精神。掌握大数据营销的基本理论、基本方法,使学生 具有一定的搜集、整理、分析市场中大数据的能力,为学习其他课程提供了实证
1 《大数据营销》课程教学大纲 一、课程基本信息 课程代码: 16030502 课程名称: 大数据营销 英文名称: Big Data Marketing 课程类别: 专业课 学 时: 32 学 分: 2 适用对象: 市场营销等本科专业 考核方式: 考试 先修课程: 市场营销学,统计学 二、课程简介 大数据营销是一门实践性很强的课程,课程介绍了大数据营销的基本原理与 实务,通过对本课程的学习,使学生培养具有强烈的大数据营销意识与正确的大 数据营销观念,养成中国新时代下数据资产保护的意识,培养社会主义核心价值 观下的大数据营销意识,了解大数据营销的基本知识,掌握大数据营销的各种方 法、技能与技巧,能够从事企业的各种大数据营销工作。具体包括:社会网络分 析,文本分析;购物篮分析;用户画像等。 This course is a highly practical course. The course introduces the basic principles and practice of big data marketing. Through the study of this course, students can cultivate strong awareness of big data marketing and correct concept of big data marketing, develop the awareness of data asset protection in the new era of China, and cultivate the awareness of big data marketing under the socialist core values Basic knowledge of big data marketing, master various methods, skills and skills of big data marketing, and be able to engage in various big data marketing work of enterprises. It includes: social network analysis, text analysis, shopping basket analysis, user portrait, etc 三、课程性质与教学目的 本课程是市场营销的专业选修课程。通过课堂讲授和实训,使学生培养专业 的职业素养,诚信的调研精神。掌握大数据营销的基本理论、基本方法,使学生 具有一定的搜集、整理、分析市场中大数据的能力,为学习其他课程提供了实证
研究的理论基础和实践能力,也为能够从事企业的各种大数据营销工作打下基础。 四、教学内容及要求 第一章大数据营销概论 (一)目的与要求 1.掌握大数据营销的概念: 2.理解大数据思维以及在社会主义核心价值观体系下扮演的角色: 3.理解大数据链条模式: (二)教学内容 第一节大数据营销概念 1.主要内容 互联网发展的新特征,大数据是互联网发展到现今阶段的一个特征。这些原 本看似杂乱无章的、非结构化的数据开始被人们利用起来,通过各行各业的不断创 新,大数据将逐步为人类创造更多的价值。理论层面、技术层面和实践层面三个层 面分解大数据:大数据营销的概念:大数据的思维,从定义思维、相关思维、创造思 维三个维度讲解大数据的思维:大数据价值链模式。 2.基本概念和知识点: 大数据营销的概念,大数据”即用于辅助管理决策的全面、动态快数据信息:采 用数据信息帮助企业进行营销决策: 营销机会识别:准确发现消费者需求,营销科 学管理:精准投放、绩效评估、人员管理。大数据的思维,数据,己经渗透到当今每 一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖据和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来:大数据价值模式。如果把大数据 比作一种产业,那么这种产业实现盈利。 3.问题与应用 掌握大数据营销的概念,理解大数据营销的思维方式:了解大数据应用价值和互 联网趋势的必要性。 第二节大数据相关的技术 1.主要内容 大数据,存储计算管理、云计算,相关服务。 2.基本概念和知识点 大数据,海量数据存储 分布式并行计算 海量数据管理 云计算,SaaS(软件即服务) PaaS(平台即服务)
2 研究的理论基础和实践能力,也为能够从事企业的各种大数据营销工作打下基础。 四、教学内容及要求 第一章 大数据营销概论 (一)目的与要求 1.掌握大数据营销的概念; 2.理解大数据思维以及在社会主义核心价值观体系下扮演的角色; 3.理解大数据链条模式; (二)教学内容 第一节 大数据营销概念 1.主要内容 互联网发展的新特征,大数据是互联网发展到现今阶段的一个特征。这些原 本看似杂乱无章的、非结构化的数据开始被人们利用起来,通过各行各业的不断创 新 ,大数据将逐步为人类创造更多的价值。理论层面、技术层面和实践层面三个层 面分解大数据;大数据营销的概念;大数据的思维,从定义思维、相关思维、创造思 维三个维度讲解大数据的思维;大数据价值链模式。 2. 基本概念和知识点: 大数据营销的概念,大数据”即用于辅助管理决策的全面、动态快数据信息;采 用数据信息帮助企业进行营销决策: 营销机会识别:准确发现消费者需求,营销科 学管理:精准投放、绩效评估、人员管理。大数据的思维,数据,已经渗透到当今每 一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来;大数据价值模式。如果把大数据 比作一种产业,那么这种产业实现盈利。 3.问题与应用 掌握大数据营销的概念,理解大数据营销的思维方式;了解大数据应用价值和互 联网趋势的必要性。 第二节 大数据相关的技术 1.主要内容 大数据,存储计算管理、云计算,相关服务。 2.基本概念和知识点 大数据,海量数据存储 分布式并行计算 海量数据管理 云计算,SaaS(软件即服务) PaaS(平台即服务)
IaaS(基础设施即服务) 提供基于海量业务数据的创新型服务 通过云计算技术的不断发展降低大数据业务的成本。 3.问题与应用 了解大数据营销不同技术的特点 第三节社会主义核心价值观下大数据营销的角色 1.主要内容 社会主义核心价值观体系,大数据营销角色,中国的数字竞争优势 2.基本概念和知识点 社会主义核心价值观的要求,新时代对于大数据营销的挑战: 大数据营销工作者的职业素养、坚持不懈的精神、求真务实的科研习惯: 移动互联网给大数据营销带来的优势和劣势,中国大数据的竞争战略优势 3.问题与应用 了解常见的困难和常见的解决困难的思路,以及形成良好的科研习惯 (三)思考与实践 1优秀的大数据营销调研者应具备的素质。 (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第二章大数据营销的数据分析 (一)目的与要求 L.掌握用R语言执行描述性统计 2.掌握用R语言执行方差分析: 3.掌握用R语言执行回归分析 4.数据分析过程中的伦理要求 (二)教学内容 第一节描述性统计 1.主要内容 查看变量名,查看表中数据信息况,变量名、类型,查看基本统计指标 2.基本概念和知识点 变量取值基本信息情况:如分类型数据的1evel(color有哪几种?cut有几 种?),数值型变量的取值范围(pricef的取值范围是多少?) 3
3 IaaS(基础设施即服务) 提供基于海量业务数据的创新型服务 通过云计算技术的不断发展降低大数据业务的成本。 3.问题与应用 了解大数据营销不同技术的特点 第三节 社会主义核心价值观下大数据营销的角色 1.主要内容 社会主义核心价值观体系,大数据营销角色,中国的数字竞争优势 2.基本概念和知识点 社会主义核心价值观的要求,新时代对于大数据营销的挑战; 大数据营销工作者的职业素养、坚持不懈的精神、求真务实的科研习惯; 移动互联网给大数据营销带来的优势和劣势,中国大数据的竞争战略优势 3.问题与应用 了解常见的困难和常见的解决困难的思路,以及形成良好的科研习惯。 (三)思考与实践 1.优秀的大数据营销调研者应具备的素质。 (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第二章 大数据营销的数据分析 (一)目的与要求 1.掌握用R语言执行描述性统计 2.掌握用R语言执行方差分析; 3.掌握用R语言执行回归分析; 4.数据分析过程中的伦理要求 (二)教学内容 第一节 描述性统计 1.主要内容 查看变量名,查看表中数据信息情况,变量名、类型,查看基本统计指标; 2.基本概念和知识点 变量取值基本信息情况:如分类型数据的level(color有哪几种?cut有几 种?),数值型变量的取值范围(price的取值范围是多少?)
基本统计指标 (1)分类型变量:每个levelf的频数,如color中每种类型分别有多少个?占 比多少? (2)数值型变量:每个变量的均值、方差、四分位数,如price的均值、方 差是多少? (3)分类与数值型联合分析:如color中J的price均值是多少?Color中E、I 的price是否有差异? 第二节方差分析 1.主要内容 认识方差分析应用场景,如何执行代码 2.基本概念和知识点 方差出较分析 例如:男、女消费者,在网购支出上是否有显著差异:A、B两种类型的消费 者,在品牌忠诚上是否有显著差异。这类问题是管理决策经常遇到的问题。 单因素方差分析 不考虑交互作用的两因素方差分析 考虑交互作用的两因素方差分析 3.问题与应用 理解并掌握方差分析的应用场景 第三节回归分析 1.主要内容 回归分析的定义和应用场景 2.基本概念和知识点 回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具 体依赖关系的计算方法和理论。 通常前一个变量被称为被解释变量(Explained Variable)或因变量 (Dependent Variable)或响应变量(Response),后一个(些)变量被称为解释 变量(Explanatory Variable)或自变量(Independent Variable)或者协变量 (Covariate)。因变量往往又更加形象地称之为输出变量(Output variable), 自变量称为输入变量(Input variable) 简单回归分析 多元回归分析 3.问题与应用 消费者的品牌忠诚度受多种因素的影响,如收入、价格、竞品促销力度、消
4 基本统计指标 (1)分类型变量:每个level的频数,如color中每种类型分别有多少个?占 比多少? (2)数值型变量:每个变量的均值、方差、四分位数,如price的均值、方 差是多少? (3)分类与数值型联合分析:如color中J的price均值是多少?Color中E、I 的price是否有差异? 第二节 方差分析 1.主要内容 认识方差分析应用场景,如何执行代码 2.基本概念和知识点 方差比较分析 例如:男、女消费者,在网购支出上是否有显著差异;A、B两种类型的消费 者,在品牌忠诚上是否有显著差异。这类问题是管理决策经常遇到的问题。 单因素方差分析 不考虑交互作用的两因素方差分析 考虑交互作用的两因素方差分析 3.问题与应用 理解并掌握方差分析的应用场景 第三节 回归分析 1.主要内容 回归分析的定义和应用场景 2.基本概念和知识点 回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具 体依赖关系的计算方法和理论。 通常前一个 变量被称 为被解释 变量(Explained Variable)或 因变量 (Dependent Variable)或响应变量(Response),后一个(些)变量被称为解释 变量(Explanatory Variable)或自变量(Independent Variable)或者协变量 (Covariate)。因变量往往又更加形象地称之为输出变量(Output variable), 自变量称为输入变量(Input variable)。 简单回归分析 多元回归分析 3. 问题与应用 消费者的品牌忠诚度受多种因素的影响,如收入、价格、竞品促销力度、消
费者心情等多种因素 第四节大数据营销的伦理要求 1.主要内容 大数据带来的伦理缺失,数据拥有者的隐私保护,数据归属权的确权问题, 知识产权保护 2.基本极令和知识点 大数据下的伦理缺失:数据获取数据分析过程中会产生的各自潜在纠纷 知识产权保护 数据的确权问题,该归属谁 企业大数据的成本收益分析 用户数据的隐私保护 企业的大数据战略,拥抱不确定性,社会长期利益一致性 3.问题与应用 理解并掌握大数据营销伦理战略要求 (三)思考与实践 1.为什么说大数据隐私越来越被企业看重? (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第三章社会网络分析 (一)目的与要求 L.理解社会网络的相关概念: 2.了解社会网络在营销中的应用: 3.掌握社会网络的代表性分析: (二)教学内容 第一节社会网络关系在营销的应用 1,主要内容 社会网络定义,相关概念。 2.基本概念和知识点 社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系,社 会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为 社会网络(social network)即可简单地称为社会关系所构成的结构。社会网 5
5 费者心情等多种因素 。 第四节 大数据营销的伦理要求 1.主要内容 大数据带来的伦理缺失,数据拥有者的隐私保护,数据归属权的确权问题, 知识产权保护 2.基本概念和知识点 大数据下的伦理缺失:数据获取数据分析过程中会产生的各自潜在纠纷 知识产权保护 数据的确权问题,该归属谁 企业大数据的成本收益分析 用户数据的隐私保护 企业的大数据战略,,拥抱不确定性,社会长期利益一致性 3.问题与应用 理解并掌握大数据营销伦理战略要求 (三)思考与实践 1.为什么说大数据隐私越来越被企业看重? (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第三章 社会网络分析 (一)目的与要求 1. 理解社会网络的相关概念; 2. 了解社会网络在营销中的应用; 3. 掌握社会网络的代表性分析; (二)教学内容 第一节 社会网络关系在营销的应用 1.主要内容 社会网络定义,相关概念。 2.基本概念和知识点 社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系,社 会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为 社会网络(social network)即可简单地称为社会关系所构成的结构。社会网
络代表着一种结构关系,它可反映行动者之间的社会关系。构成社会网络的主要 要素有 行动者(actor):这里的行动者不但指具体的个人,还可指一个群体、公司或 其他集体性的社会单位。每个行动者在网络中的位置被称为“节点(ode)”。 关系纽带(relational tie):行动者之间相互的关联即称关系纽带。人们之 间的关系形式是多种多样的,如亲属关系、合作关系、交换关系、对抗关系等, 这些都构成了不同的关系纽带。 二人组(dyad):由两个行动者所构成的关系。这是社会网络的最简单或最基 本的形式,是我们分析各种关系纽带的基础。 三人组(triad):由三个行动者所构成的关系。 子群(subgroup):指行动者之间的任何形式关系的子集。 群体(group):其关系得到测量的所有行动者的集合。 社会网络分析是对社会网络的关系结构及其属性加以分析的一套规范和方 法。它又被称结构分析法(structural analysis),因为它主要分析的是不同社会 单位(个体、群体或社会)所构成的社会关系的结构及其属性。 3问题与应用 理解社会网络中,谁跟谁有联系?谁很重要?信息如何传递?(评论)影响 作用如何发挥? 第二节社会网络分析法的分析角度 1.主要内容 中心性分析:度中心性、出度、入度、桥中心性、社会密度、度中心性、接 近中心性、中介中心性、特征向量中心性 2.基本概念和知识点 度中心性的定义是,与某个结点相连的链接数量。在这个问题中,与某位同 学或者老师有联系的人越多,则该人的度中心性越高。显然,度中心性高的人 就是我们要寻找的“交际花”人物。在这个图中,Jack显然就是这样一个交际花。 接近中心性的定义是,对于该结点而言,与该结点相连的其余所有结点到它 的最短路的长度的均值。在我们的问题中,如果一个人的接近中心性越高,意味 着这个人和多数人的联系都很紧密,比较合群,反之的话比较独立 中介中心性的定义是,该结点作为其他两个结点的最短路上的桥梁的次数。 在我们的问题中,如果一个人的中介中心度越高,意味着这个人经常充当大家的 中间人。这个中间人非常重要,如果这个人转学了,可能许多人之间的相互联系 会增加许多困难。 特征向量中心性训度的是一个结点在网络中的影响。有没有可能存在若一些 人,自身并没有与很多人有联系,但是每一句话都很有分量和影响力?在我们的 6
6 络代表着一种结构关系,它可反映行动者之间的社会关系。构成社会网络的主要 要素有: 行动者(actor):这里的行动者不但指具体的个人,还可指一个群体、公司或 其他集体性的社会单位。每个行动者在网络中的位置被称为“节点(node)”。 关系纽带(relational tie):行动者之间相互的关联即称关系纽带。人们之 间的关系形式是多种多样的,如亲属关系、合作关系、交换关系、对抗关系等, 这些都构成了不同的关系纽带。 二人组(dyad):由两个行动者所构成的关系。这是社会网络的最简单或最基 本的形式,是我们分析各种关系纽带的基础。 三人组(triad):由三个行动者所构成的关系。 子群(subgroup):指行动者之间的任何形式关系的子集。 群体(group):其关系得到测量的所有行动者的集合。 社会网络分析是对社会网络的关系结构及其属性加以分析的一套规范和方 法。它又被称结构分析法(structural analysis),因为它主要分析的是不同社会 单位(个体、群体或社会)所构成的社会关系的结构及其属性。 3 问题与应用 理解社会网络中,谁跟谁有联系?谁很重要?信息如何传递?(评论)影响 作用如何发挥? 第二节 社会网络分析法的分析角度 1.主要内容 中心性分析:度中心性、出度、入度、桥中心性、社会密度、度中心性、接 近中心性、中介中心性、特征向量中心性 2.基本概念和知识点 度中心性的定义是,与某个结点相连的链接数量。在这个问题中,与某位同 学或者老师有联系的人越多,则该人的度中心性越高。显然,度中心性高的人, 就是我们要寻找的“交际花”人物。在这个图中,Jack显然就是这样一个交际花。 接近中心性的定义是,对于该结点而言,与该结点相连的其余所有结点到它 的最短路的长度的均值。在我们的问题中,如果一个人的接近中心性越高,意味 着这个人和多数人的联系都很紧密,比较合群,反之的话比较独立。 中介中心性的定义是,该结点作为其他两个结点的最短路上的桥梁的次数。 在我们的问题中,如果一个人的中介中心度越高,意味着这个人经常充当大家的 中间人。这个中间人非常重要,如果这个人转学了,可能许多人之间的相互联系 会增加许多困难。 特征向量中心性测度的是一个结点在网络中的影响。有没有可能存在着一些 人,自身并没有与很多人有联系,但是每一句话都很有分量和影响力?在我们的
的问题中,假如微信群里有个人是教导主任,可能教导主任并不会与很多人沟通, 但是教导主任说的话却很有影响力,这个时候就可以用特征向量中心性来捕捉这 一点。由于和教导主任相连接的人往往在网络中很有印象里,因此教导主任本身 在这个网络中是一个非常有影响力的人物 3.问题与应用 网络社区中意见领袖(opinion leader)是如何形成的? 第三节社会网络下的消费者价值观塑造 1.主要内容 社会网络的传染性 文化融合可能的危害 广告诉求在社会网络中的传播 2.基本概念和知识点 社会网络的传染性 社会网络的关键节点 部分消费者不健康的消费价值观与西方消费文化的冲击 通过社会网络引导消费者健康消费 健康诉求广告在社会网络中的应用 3.问题与应用 通过社会网络引导消费者健康消费。 (三)思考与实践 L.设计一个广告推广方案,如何利用KOL的力量在社会网络中传播。 2.K0L的节点该怎么设计? (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第四章文本分析 (一)目的与要求 1.认识NLP的概念和应用 2.掌握分词的基本应用: 3.掌握词顷和词云的制作 4.了解基本的情感分析: 5.掌握网页文本数据的分析
7 的问题中,假如微信群里有个人是教导主任,可能教导主任并不会与很多人沟通, 但是教导主任说的话却很有影响力,这个时候就可以用特征向量中心性来捕捉这 一点。由于和教导主任相连接的人往往在网络中很有印象里,因此教导主任本身 在这个网络中是一个非常有影响力的人物 3.问题与应用 网络社区中意见领袖(opinion leader)是如何形成的? 第三节 社会网络下的消费者价值观塑造 1.主要内容 社会网络的传染性 文化融合可能的危害 广告诉求在社会网络中的传播 2.基本概念和知识点 社会网络的传染性 社会网络的关键节点 部分消费者不健康的消费价值观与西方消费文化的冲击 通过社会网络引导消费者健康消费 健康诉求广告在社会网络中的应用 3.问题与应用 通过社会网络引导消费者健康消费。 (三)思考与实践 1.设计一个广告推广方案,如何利用KOL的力量在社会网络中传播。 2.KOL的节点该怎么设计? (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第四章 文本分析 (一)目的与要求 1. 认识NLP的概念和应用; 2. 掌握分词的基本应用; 3. 掌握词频和词云的制作; 4. 了解基本的情感分析; 5. 掌握网页文本数据的分析;
(二)教学内容 第一节词颜和云图的制作 1.主要内容 NLP的定义,分词的应用和逻辑。词频和词云的制作 2.基本概念和知识点 NLP(Natural Language Processing)是人工智能(AI)的一个子领域,未 来前景无限:传统计算机处理的元素:数字:让计算机处理:1+2+3=?or让 计算机处理:“我们来自五湖四海”:让计算机处理:“说曹操曹操到“;N 处理难点在于,难标准化,有情境因素影响,文化不同,语义深奥ⅱ文本、图片、 语音,视频:相关报告表明,我们的信息资料95%为自然语言,其中文本比重最 NLP的作用:把不标准的信息标准化:目的:让计算机可读 中英文文本处理逻辑不同 中文分词:我们来自五湖四海,为了一个共同的目标走到一起来了。 街球王吴悠;街球王吴悠 英文词千化:The utilities include functions for loading,manipulating and visualizing word frequency data and vocabulary growth curves. 中文词频处理:前期处理:英语词干化,中文分词将其数字化 词频矩阵:两列,一列为词语, 一列为词频(出现的次数) 如果我要给一个txt文件的大量文本做词频该怎么办?·如何将大量文本进 行标准化,并统计词频的过程。ǖ读取文本-一分词-一变成数据表格式-一变成特 定数据格式(可用于词频函数的格式)-文本处理(去掉不要的词,排序) 做词频矩阵 词频矩阵可以做很多有用的定量分析,针对我们学过的功能而言:做云图! 为了防止中文乱码,保存TXT格式一定要UTF-8编码 3.问题与应用 理解nlp扮演的角色:掌握分词、词干化、词频和云图的制作 第二节网页文本的解析 1.主要内容 网页文本解析的基本原理,相关包的介绍和使用。 2.基本概念和知识点 网页是文本的重要来源。网页是由网页源代码实现的(鼠标右键查看源代码) 通过源代码把网页变成文本信息。通过对源代码内容提取我们需要的有用信息(爬 虫的重要基础) XL包在R中对网页解析(XML、HTWL文件,或包含XML、HTML的字符串)
8 (二)教学内容 第一节 词频和云图的制作 1.主要内容 NLP的定义,分词的应用和逻辑。词频和词云的制作。 2. 基本概念和知识点 NLP (Natural Language Processing) 是人工智能(AI)的一个子领域, 未 来 前景无限 ;传统计算机处理的元素:数字 ;让计算机处理:1+2+3=?or 让 计算机处理:“我们来自五湖四海” ; 让计算机处理 :“ 说曹操曹操到“ ; NLP 处理难点在于,难标准化,有情境因素影响,文化不同,语义深奥 ü 文本、图片、 语音,视频; 相关报告表明,我们的信息资料95%为自然语言,其中文本比重最 大。 NLP的作用:把不标准的信息标准化;目的:让计算机可读 中英文文本处理逻辑不同 中文分词:我们 来自 五湖四海,为了 一个 共同的 目标 走到 一起来了。 街球 王吴悠 ;街球王 吴悠 英文词干化:The utilities include functions for loading, manipulating and visualizing word frequency data and vocabulary growth curves. 中文词频处理:前期处理:英语词干化,中文分词 将其数字化 词频矩阵:两列,一列为词语,一列为词频(出现的次数) 如果我要给一个txt文件的大量文本做词频该怎么办? ü 如何将大量文本进 行标准化,并统计词频的过程。 ü 读取文本---分词--变成数据表格式--变成特 定数据格式(可用于词频函数 的格式)--文本处理(去掉不要的词,排序)-- 做词频矩阵 词频矩阵 可以做很多有用的定量分析,针对我们学过的功能而言:做云图! 为了防止中文乱码,保存TXT格式一定要UTF-8编码 3.问题与应用 理解nlp扮演的角色;掌握分词、词干化、词频和云图的制作。 第二节 网页文本的解析 1. 主要内容 网页文本解析的基本原理,相关包的介绍和使用。 2.基本概念和知识点 网页是文本的重要来源 。网页是由网页源代码实现的(鼠标右键查看源代码) 通过源代码把网页变成文本信息。通过对源代码内容提取我们需要的有用信息(爬 虫的重要基础) XML包 在 R 中对网页解析(XML、HTML 文件,或包含 XML、HTML 的字 符串)
有多种方法,比较成熟的方法是使用XML包。i将XWL、HTML网页树(tree) 解析成R结构数据 Xpath语言的简单使用 解析XL包自带网页源代码文件 基于L包解析外部树贡: (1)直接用网址(只适用于HTTP开头,一般是老网页,不适用于TTPS开头) (2)HTTPS开头的网页(这种网页更常见),保存文件法 (3)提炼信息。 3.问颗与应用 掌握设计问卷的逻辑步骤:掌握三种主要的问题类型设计。 第三节海量数据的文本处理 1.主要内容 语料库、文本-词条矩阵和tm包的使用 2.基本概念和知识点 文本数据量很大,有多个文档需要处理: 语料库:代表了一系列的文档集合: 词频之外其他标准化形式: tm包自带文件库的处理 自己创建一个语料库读取语料库 分析外部海量文件的语料库 文档-词条矩阵:比词频强大的标准化工具。文档为行,词条位列,显示频 文档-词条矩阵:寻找高频findFreqTerms(dtm,3)出现次数大于等于3的条 目:寻找关联ufindAssocs(dtm,"亲爱的”,0.5) 情感分析:基于词典,中文词典较少(大连理工)。文本处理分词后 借助情感词典打分。基于神经网络 训练数据集根据训练数据集再测试情感得分 第四节海量文本下营销人的使命感 1,主要内容 互联网情境海量文本的营销机会,营销人的时代使命。 2.基本概今和知识占 海量文本的营销机会:更精准的消费者需求匹配,大量的真实行为数据 数据资产:中国数十亿人创造出来的资产 营销人使命:磨练技术基本功,不荒废资产,考虑社会长期利益,增加社会
9 有多种方法,比较成熟的方法是使用 XML 包。 ü将 XML、HTML 网页树(tree) 解析成 R 结构数据 Xpath语言的简单使用 解析XML包自带网页源代码文件 基于XML包解析外部网页: (1)直接用网址(只适用于HTTP开头,一般是老网页,不适用于 HTTPS开头) (2)HTTPS开头的网页(这种网页更常见),保存文件法 (3)提炼信息。 3.问题与应用 掌握设计问卷的逻辑步骤;掌握三种主要的问题类型设计。 第三节 海量数据的文本处理 1.主要内容 语料库、文本-词条矩阵和tm包的使用。 2.基本概念和知识点 文本数据量很大,有多个文档需要处理; 语料库:代表了一系列的文档集合; 词频之外其他标准化形式: tm包自带文件库的处理 自己创建一个语料库 读取语料库 分析外部海量文件的语料库 文档-词条矩阵:比词频强大的标准化工具 。文档为行,词条位列,显示频 数 文档-词条矩阵 :寻找高频 findFreqTerms(dtm,3) 出现次数大于等于3的条 目 ;寻找关联 üfindAssocs(dtm,"亲爱的",0.5) 情感分析 : 基于词典 ,中文词典较少(大连理工) 。文本处理 分词后, 借助情感词典打分 。 基于神经网络 训练数据集 根据训练数据集 再测试情感得分 第四节 海量文本下营销人的使命感 1.主要内容 互联网情境海量文本的营销机会,营销人的时代使命。 2.基本概念和知识点 海量文本的营销机会:更精准的消费者需求匹配,大量的真实行为数据 数据资产:中国数十亿人创造出来的资产 营销人使命:磨练技术基本功,不荒废资产,考虑社会长期利益,增加社会
福利 增强社会责任感,使命感 (三)思考与实践 L.讨论NLP在未来的作用 2.文本分析、网络文本分析在营销领域的应用。 (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多煤体教学 第五章购物篮分析 (一)目的与要求 1.理解购物篮分析的含义: 2.理解关联规则侧分析的指标: 3.了解先验算法: (二)教学内容 第一节购物篮与购物篮分析 1.主要内容: 掌握购物篮的概念,目的、来源和R语言实现 2.基本概念和知识点 用户调研用户画像:性别、喜好等商品相似度:水饺和包子 用户协同推荐:物品A被小张、小明、小董买过,物品B被小红、小丽、小晨 买过,物品C被小张、小明、小李买过;直观的看来,物品A和物品C的购买人群相 似度更高,现在我们可以对小董推荐物品C,小李推荐物品A。 商品协同推荐:用户A买过可乐、雪碧、火锅底料,户B买过卫生纸、衣服 鞋,用户C买过火锅、果汁、七喜:直观上来看,用户A和用户C相似度更高,现在 我们可以对用户A推荐用户C买过的其他东西,对用户C推荐用户A买过买过的其他 东西。关联推荐:多数用户同时购买了A和B,当购买A时,就会推荐B。 购物篮是指顾客单张小票上所记录的购买商品,数据包括品种、数量、单价、 总价、折扣等信息。 购物篮分析(market--basket analysis)是通过有效的数量方法,来发现顾 客在一次购买行为中放入购物篮中不同商品之间的联系,来分析顾客的购买行为, 并辅助零售企业制定营销策略。它是描述数据挖掘技术解决方案的术语,也是典 型的商品聚类问题。 企业可以通过购物篮分析来改变置物架上的商品排列、设计吸引客户的商业 套餐、商品促销、交叉销售、追加销售、商品促销、顾客忠诚度管理、库存管理 和折扣计划等。 10
10 福利 增强社会责任感,使命感 (三)思考与实践 1.讨论NLP在未来的作用 2.文本分析、网络文本分析在营销领域的应用。 (四)教学方法与手段 课堂讲授、课堂讨论、案例分析、调查研究、网络辅助教学、多媒体教学 第五章 购物篮分析 (一)目的与要求 1. 理解购物篮分析的含义; 2. 理解关联规则分析的指标; 3. 了解先验算法; (二)教学内容 第一节 购物篮与购物篮分析 1.主要内容: 掌握购物篮的概念,目的、来源和R语言实现。 2.基本概念和知识点 用户调研 用户画像:性别、喜好等 商品相似度:水饺和包子 用户协同推荐:物品A被小张、小明、小董买过,物品B被小红、小丽、小晨 买过,物品C被小张、小明、小李买过;直观的看来,物品A和物品C的购买人群相 似度更高,现在我们可以对小董推荐物品C,小李推荐物品A。 商品协同推荐:用户A买过可乐、雪碧、火锅底料,户B买过卫生纸、衣服、 鞋,用户C买过火锅、果汁、七喜;直观上来看,用户A和用户C相似度更高,现在 我们可以对用户A推荐用户C买过的其他东西,对用户C推荐用户A买过买过的其他 东西。关联推荐:多数用户同时购买了A和B,当购买A时,就会推荐B 。 购物篮是指顾客单张小票上所记录的购买商品,数据包括品种、数量、单价、 总价、折扣等信息。 购物篮分析(market-basket analysis)是通过有效的数量方法,来发现顾 客在一次购买行为中放入购物篮中不同商品之间的联系,来分析顾客的购买行为, 并辅助零售企业制定营销策略。它是描述数据挖掘技术解决方案的术语,也是典 型的商品聚类问题。 企业可以通过购物篮分析来改变置物架上的商品排列、设计吸引客户的商业 套餐、商品促销、交叉销售、追加销售、商品促销、顾客忠诚度管理、库存管理 和折扣计划等