
中国社会科学院大学《文本分析》课程大纲 课程基本信息(Course Information) 课程编号 (Course ID) 1163020025 *学时 (Credit Hours) 48 *学分 (Credits) 2 *课程名称 (Course Name) 文本分析 Text Analytics 先修课程 (Prerequisite Courses) *课程简介 (Description) (中文 300-500 字) 文本分析或自然语言处理(NLP)是信息时代最重要的技术之一。NLP 的应用无处不 在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻 译、虚拟代理、医疗报告等。对文本数据的分析需要理解自然语言文本,这是计算机 的一项艰巨任务。在过去的时间里,大量的统计方法已经被证明对于“浅层的”,但 稳健的文本数据分析模式发现和知识发现工作良好。近年来,深度学习(或神经网络) 方法不再需要传统的、特定某种任务的特征工程,在许多不同的 NLP 任务中获得了 非常高的性能。 本课程主要介绍文本分析、NLP 的相关技术,这些方法将涵盖文本数据分析的主要技 术,以发现有趣的模式,提取有用的知识,并支持决策,同时借助讲座、作业和期末 专题深入了解文本分析、NLP 深度学习的前沿研究。 *课程简介 (Description) Text analysis or natural language processing (NLP) is one of the most important technologies in the information age. NLP is applied everywhere because people communicate almost everything in language: Web search, advertising, e-mail, customer service, language translation, virtual agent, medical report, etc. The analysis of text data needs to understand natural language text, which is a difficult task for computers. In the past time, a large number of statistical methods have been proved to work well for "shallow", but robust text data analysis pattern discovery and knowledge discovery. In recent years, deep learning (or neural network) methods no longer need the traditional feature engineering of a specific task, and have achieved very high performance in many different NLP tasks. This course mainly introduces the relevant technologies of text analysis and NLP to discover interesting patterns, extract useful knowledge and support decision-making. At the same time, with the help of lectures, assignments and final projects, we will have an in-depth understanding of the frontier research of text analysis and NLP in-deep learning. *教材 (Textbooks) 文本数据挖掘,宗成庆著,清华大学出版社,2019 年,第 1 版,ISBN:9787302519904 参考资料 (Other References)

*课程类别 (Course Category) 公共基础课/全校公共必修课 通识教育课 专业基础课 专业核心课/专业必修课 专业拓展课/专业选修课 其他 *授课对象 (Target Students) 全校本科生 *授课模式 (Mode of Instruction) 线上,教学平台 线下 混合式 其他 实践类(70%以上学时深入基层) *开课院系 (School) 计算机教研部 *授课语言 (Language of Instruction) 中文 全外语 双语:中文+ (外语讲授不低于 50%) *授课教师信息 (Teacher Information) 课程负责人 姓名及简介 翟剑锋 副教授 计算机教研部负责人 团队成员 姓名及简介 学习目标 ( Learning Outcomes) 本课程主要介绍文本分析、NLP 的相关技术,以发现有趣的模式,提取有用的知识并 支持决策,同时借助讲座、作业和期末专题深入了解文本分析、NLP 深度学习的前沿 研究。 1、熟悉文本分析、NLP 领域的相关技术,能够运用其成熟的算法解决问题; 2、能够借助文本分析技术对非结构化数据进行探索,并发现潜在规律,以提取有用 的知识。 3、了解常见的文本表示方法,熟悉文本处理的一半流程; 4、具备借助工具或程序设计语言,提出相应问题解决方案的能力; 5、具备将文本分析技术运用到人文社科领域,并解决现实问题,为决策提供技术支 撑。 *考核方式 (Grading) 平时成绩 30%、期末成绩 70% *课程教学计划(Teaching Plan)(以表述清楚教学安排为宜,字数不限)填写规范化要求见附件 周次 周 学 时 其中 教学内容摘要 (必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、 阅读文献参考书目及作业等) 讲 授 实 验 课 习 题 课 课 程 讨 论 其 他 环 节 第一周 3 2 1 第一章 绪论 1.1 基本概念,1.2 主要任务,1.3 文本分析面临的困难 第二周 3 2 1 第二章 数据预处理 2.1 数据获取,2.2 正则表达式

第三周 3 2 1 第二章 数据预处理 2.3 文本切分,2.4 文本规范化,2.5 中文预处理 2.6 词性标注及句 法分析 第四周 3 2 1 第三章 文本表示 3.1 语言模型 3.2 词袋模型 第五周 3 2 1 第三章 文本表示 3.3 神经网络语言模型 3.4 词的分布式表示 3.5 短语及文档的分 布式表示 第六周 3 2 1 第四章 文本分类 4.1 特征选择,4.2 传统的分类方法 第七周 3 2 1 第四章 文本分类 4.3 基于神经网络的分类方法 第八周 3 2 1 第五章 文本聚类 5.1 相似性度量 5.2 文本聚类算法 5.3 性能评估 第九周 3 2 1 第六章 主题模型 6.1 潜在语义分析 6.2 概率潜在语义分析 第十周 3 2 1 第六章 主题模型 6.3 潜在狄利克雷分布 6.4 LDA 算法 第十一周 3 2 1 第七章 情感分析与观点挖掘 7.1 情感分析任务类别 7.2 文档或句子级情感分析方法 7.3 词语 级情感分析 第十二周 3 2 1 第七章 情感分析与观点挖掘 7.4 属性级情感分析 7.5 特殊问题

第十三周 3 2 1 第七章 情感分析与观点挖掘 7.6 案例实现,电影评论分析 第十四周 3 2 1 第八章综合运用 文本量化运用实例 1 第十五周 3 2 1 第八章综合运用 文本量化运用实例 2 第十六周 3 2 1 复习 总计 48 32 16 (.教学方法包含讲授法、专题研讨、案例教学、视频教学、课堂汇报、课后实践等) 备注(Notes)