自然语言处理 Natural Language Processing(NLP) 陈家骏,戴新宇,吴震 chenjj@nju.edu.cn daixinyu@nju.edu.cn wuz@nju.edu.cn
自然语言处理 Natural Language Processing(NLP) 陈家骏,戴新宇,吴震 chenjj@nju.edu.cn daixinyu@nju.edu.cn wuz@nju.edu.cn
主要内容(1) 口自然语言处理概述 ■什么是自然语言处理 ■自然语言处理的典型应用 ■ 自然语言处理的基本任务 ■自然语言处理的基本策略和实现方法 ■自然语言处理的难点 ■自然语言处理所涉及的学科 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
主要内容(1) 自然语言处理概述 ◼ 什么是自然语言处理 ◼ 自然语言处理的典型应用 ◼ 自然语言处理的基本任务 ◼ 自然语言处理的基本策略和实现方法 ◼ 自然语言处理的难点 ◼ 自然语言处理所涉及的学科 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
主要内容(2) 口基于规则(知识工程)的自然语言处理方法(理 性方法,传统方法) ■基于词典和规则的形态还原(英语)、词性标注以及 分词(汉语、日语) 基于CFG(上下文无关文法)和扩充的CFG(复杂特 征集、合一运算)的句法分析 ■基于逻辑形式和格语法的句义分析 ■基于规则的机器翻译 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
基于规则(知识工程)的自然语言处理方法(理 性方法,传统方法) ◼ 基于词典和规则的形态还原(英语)、词性标注以及 分词(汉语、日语) ◼ 基于CFG(上下文无关文法)和扩充的CFG(复杂特 征集、合一运算)的句法分析 ◼ 基于逻辑形式和格语法的句义分析 ◼ 基于规则的机器翻译 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt) 主要内容(2)
主要内容(3) 口基于语料库(数据)的自然语言处理方法 (经验方 法) ■语言模型(N元文法)》 ■分词、词性标注(序列化标注模型〉 ■句法分析(概率上下文无关模型、移进-规约分析器) ■文本分类(朴素贝叶斯模型、最大熵模型) ■情感分析 ■机器翻译(IBM Model等) ....·(基于神经网络的深度学习方法)
基于语料库(数据)的自然语言处理方法(经验方 法) ◼ 语言模型(N元文法) ◼ 分词、词性标注(序列化标注模型) ◼ 句法分析(概率上下文无关模型、移进-规约分析器) ◼ 文本分类(朴素贝叶斯模型、最大熵模型) ◼ 情感分析 ◼ 机器翻译 (IBM Model等) ◼ ......(基于神经网络的深度学习方法) 主要内容(3)
自然语言处理概述
自然语言处理概述
什么是自然语言处理 口充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言(英语、汉语等)形式存在。 口如何有效地获取和利用以自然语言形式出现的信 息? 自然语言处理(Natural Language Processing,简 称NLP)是指用计算机对自然语言信息进行处理的理论、 方法和技术。 ▣与NLP相近的两个研究领域: 自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释 计算语言学(Computational Linguistics,CL):强调 可计算的语言理论
什么是自然语言处理 充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言(英语、汉语等)形式存在。 如何有效地获取和利用以自然语言形式出现的信 息? ◼ 自然语言处理(Natural Language Processing,简 称NLP)是指用计算机对自然语言信息进行处理的理论、 方法和技术。 与NLP相近的两个研究领域: ◼ 自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释。 ◼ 计算语言学(Computational Linguistics, CL):强调 可计算的语言理论
NLP技术的典型应用 口机器翻译 口自动摘要 口文本分类与信息过滤 口信息检索 口自动问答 口情感分析 口信息抽取 ▣
NLP技术的典型应用 机器翻译 自动摘要 文本分类与信息过滤 信息检索 自动问答 情感分析 信息抽取
机器翻译 (Machine Translation) 口机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言之间的自动翻译。 ■是最早的计算机应用之一 ■分为:文本机器翻译和语音机器翻译 a机器辅助翻译(Machine Aided Translation或 Computer Aided Translation,简称MAT或CAT) 翻译记忆体(Translation Memory,简称TM) ■双语对照的译后编辑
机器翻译(Machine Translation) 机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言之间的自动翻译。 ◼ 是最早的计算机应用之一 ◼ 分为:文本机器翻译和语音机器翻译 机器辅助翻译(Machine Aided Translation或 Computer Aided Translation,简称MAT或CAT) ◼ 翻译记忆体(Translation Memory,简称TM) ◼ 双语对照的译后编辑 ◼
自动摘要(Text Summarization) 利用计算机自动地从原始文档中提取全面、准确 地反映该文档中心内容的简洁、连贯的短文。 ■分为单文档摘要和多文档摘要 ■应对信息过载
自动摘要(Text Summarization) 利用计算机自动地从原始文档中提取全面、准确 地反映该文档中心内容的简洁、连贯的短文。 ◼ 分为单文档摘要和多文档摘要 ◼ 应对信息过载
文本分类(Text Classification) 口将一篇文档归于预先给定的一个类别集合中的某一 类或某几类。可用于: ■新闻、出版物等的分类 ■ 网页分类 ·信息过滤(垃圾邮件、黄色网页等) ■推荐系统
文本分类(Text Classification) 将一篇文档归于预先给定的一个类别集合中的某一 类或某几类。可用于: ◼ 新闻、出版物等的分类 ◼ 网页分类 ◼ 信息过滤(垃圾邮件、黄色网页等) ◼ 推荐系统 ◼