自然语言处理 Natural Language Processing(NLP) 陈家骏,戴新宇 chenjionju. edu.cn daixinyu@nj u. edu. cn
自然语言处理 Natural Language Processing(NLP) 陈家骏,戴新宇 chenjj@nju.edu.cn daixinyu@nju.edu.cn
主要内容(1) 口自然语言处理概述 ■什么是自然语言处理 ■自然语言处理的典型应用 ■自然语言处理的基本任务 ■自然语言处理的基本策略和实现方法 ■自然语言处理的难点 ■自然语言处理所涉及的学科 (http://cs.nju.educn/chenjiajun/nlptraditional.ppt
主要内容(1) 自然语言处理概述 ◼ 什么是自然语言处理 ◼ 自然语言处理的典型应用 ◼ 自然语言处理的基本任务 ◼ 自然语言处理的基本策略和实现方法 ◼ 自然语言处理的难点 ◼ 自然语言处理所涉及的学科 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt)
主要内容(2) 口基于规则(知识工程)的传统自然语言处理方法 (理性方法) ■基于词典和规则的形态还原(英语)、词性标注以及 分词(汉语、日语) ■基于CFG(上下文无关文法)和扩充的CFG(复杂特 征集、合一运算)的句法分析 ■基于逻辑形式和格语法的句义分析 基于规则的机器翻译 (http://cs.nju.educn/chenjiajun/nlp_traditional.ppt
基于规则(知识工程)的传统自然语言处理方法 (理性方法) ◼ 基于词典和规则的形态还原(英语)、词性标注以及 分词(汉语、日语) ◼ 基于CFG(上下文无关文法)和扩充的CFG(复杂特 征集、合一运算)的句法分析 ◼ 基于逻辑形式和格语法的句义分析 ◼ 基于规则的机器翻译 (http://cs.nju.edu.cn/chenjiajun/nlp_traditional.ppt) 主要内容(2)
主要内容(3) 口基于语料库的自然语言处理方法(经验方法) ■语言模型(N元文法) 分词、词性标注(序列化标注模型) ■句法分析(概率上下文无关模型) ■文本分类(朴素贝叶斯模型、最大熵模型) 机器翻译(Ⅰ BM Model等) (基于神经网络的深度学习方法)
基于语料库的自然语言处理方法(经验方法) ◼ 语言模型(N元文法) ◼ 分词、词性标注(序列化标注模型) ◼ 句法分析(概率上下文无关模型) ◼ 文本分类(朴素贝叶斯模型、最大熵模型) ◼ 机器翻译 (IBM Model等) ◼ ......(基于神经网络的深度学习方法) 主要内容(3)
自然语言处理概述
自然语言处理概述
什么是自然语言处理 口充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言(英语、汉语等)形式存在。 口如何有效地获取和利用以自然语言形式出现的信 自然语言处理( Natural Language processing,简 称NLP)是指用计算机对自然语言信息进行处理的方法 和技术。 口与NLP相近的两个研究领域: ■自然语言理解( Natura| Language Understanding, NLU):强调对语言含义和意图的深层次解释。 计算语言学 Computational Linguistics,CL):强调 可计算的语言理论
什么是自然语言处理 充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言(英语、汉语等)形式存在。 如何有效地获取和利用以自然语言形式出现的信 息? ◼ 自然语言处理(Natural Language Processing,简 称NLP)是指用计算机对自然语言信息进行处理的方法 和技术。 与NLP相近的两个研究领域: ◼ 自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释。 ◼ 计算语言学(Computational Linguistics, CL):强调 可计算的语言理论
NLP技术的典型应用 口机器翻译 口自动摘要 口文本分类与信息过滤 口信息检索 口自动问答 口情感分析 口信息抽取
NLP技术的典型应用 机器翻译 自动摘要 文本分类与信息过滤 信息检索 自动问答 情感分析 信息抽取
机器翻译( Machine translation) 口机器翻译( Machine translation,简称MT)是指 利用计算机实现自然语言之间的自动翻译 ■是最早的计算机应用之 分为:文本机器翻译和语音机器翻译 口机器辅助翻译( Machine Aided translation或 Computer aided Translation,简称MAT或CAT) ■翻译记忆体( Trans| ation Memory,简称TM) ■双语对照的译后编辑
机器翻译(Machine Translation) 机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言之间的自动翻译。 ◼ 是最早的计算机应用之一 ◼ 分为:文本机器翻译和语音机器翻译 机器辅助翻译(Machine Aided Translation或 Computer Aided Translation,简称MAT或CAT) ◼ 翻译记忆体(Translation Memory,简称TM) ◼ 双语对照的译后编辑 ◼
自动摘要( Text summarization) 口利用计算机自动地从原始文档中提取全面、准确 地反映该文档中心内容的简洁、连贯的短文。 应对信息过载 分为单文档摘要和多文档摘要
自动摘要(Text Summarization) 利用计算机自动地从原始文档中提取全面、准确 地反映该文档中心内容的简洁、连贯的短文。 ◼ 应对信息过载 ◼ 分为单文档摘要和多文档摘要
文本分类( Text classification) 口将一篇文档归于预先给定的一个类别集合中的某 类或某几类 ■图书馆的图书分类 网页分类 ■信息过滤
文本分类(Text Classification) 将一篇文档归于预先给定的一个类别集合中的某一 类或某几类。 ◼ 图书馆的图书分类 ◼ 网页分类 ◼ 信息过滤 ◼