数暖科学导论 ☒ ⊕ 纽 的 鱼 自然语言处理 Natural Language Processing 主讲:郭凤英
自然语言处理 主讲:郭凤英 Natural Language Processing
■目录 自然语言处理概述 自然语言处理的应用 自然语言处理的挑战 自然语言处理实战 B,期英英 NLP
By 郭凤英 目录 自然语言处理概述 自然语言处理的挑战 自然语言处理的应用 自然语言处理实战
■什么是自然语言处理? 自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理技术发展经历了基于规则的方法、基于统计学习的方法和基于深度学习的方法 三个阶段。自然语言处理由浅入深的四个层面分别是形式、语义、推理和语用,当前正处于 由语义向推理的发展阶段。 无中 弦外 表示 2012年- 本来 生有 之音 数据驱动 基于深度学习的方法 理解 面貌 语用 推理 语义 弦外之音 1990年-2012年 规则驱动 uage 基于统计的方法 ● 形式 ● 请查询一下 你怎么能这·言外之意 我的余额 么和我说话? 1990年以前 直接检索 我的余额还●情感: 基于规则的方法 负向 ,●词性标注 有多少? NLP
By 郭凤英 什么是自然语言处理? 自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理技术发展经历了基于规则的方法、基于统计学习的方法和基于深度学习的方法 三个阶段。自然语言处理由浅入深的四个层面分别是形式、语义、推理和语用,当前正处于 由语义向推理的发展阶段。 1990年以前 基于规则的方法 1990年~2012年 基于统计的方法 2012年~ 基于深度学习的方法 规则驱动 数据驱动 本来 面貌 表示 理解 无中 生有 弦外 之音 形式 语义 推理 语用 直接检索 词性标注 请查询一下 我的余额 我的余额还 有多少? 你怎么能这 么和我说话? 情感:负向 弦外之音 言外之意
■什么是自然语言处理? 萌芽期 合计算机的 1946年: 快速发展 宾夕法形亚大学研制成功的TDAP系统 基于贝叶斯方法的统计学研究方法 低速的发 展期(1971 -1993 复苏融合 骤 期(1994年 人工智能诞生 至今) 图哭 机的概念提出 1936年: Shannon把离 1948年 散马尔可夫概 率模型用来橘透 语离的自动机 Chomsky又提 1956年: 关语法 形式语畜理论和 形式逻辑系统的 2001年-神经 语离模型 多任 生成句法的研究 2008年 务学习 2013年 Word嵌入 NLP 2013年 2014年序列 的神经网络 到序列模 注意 2015年 力机制 出了上下文 记忆的神经网 预 2015年 练语畜模型 2018年 B,英英 NLP
By 郭凤英 什么是自然语言处理? 人工智能诞生
■如何做语言分析? 中文分词(Word Segmentation,WS)指的是将汉字序列切分成词序列。因为在汉语中 ■分词 词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然 语言处理任务的基础。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/总理/李克强/调研/上海/外高桥/时/提出/,/支持/上海/积极/探索/新/机制/。 如果分词系统给出的切分结果是 国务院/总理/李克/强调/研/上海一 切分歧义是分词任务中的主要难题。 B,明英英 NLP
By 郭凤英 如何做语言分析? 分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中, 词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然 语言处理任务的基础。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 切分歧义是分词任务中的主要难题
■词法分析 词是自然语言中能够独立运用的最小单位,是语言信息处理的基本单位。 词法分析是对自然语言的形态(morphology)进行分析,判断词的结构、类别和 性质。 主要任务包括: 自动分词(segmentation) 命名实体识别(Named Entity Recognition) 词性标注(Part-of-Speech tagging,POS tagging) By期英英 NLP
By 郭凤英 词法分析
■如何做语言分析? 词性标注(Part-of-speech Tagging,POS)是给句子中每个词一个词性类别的任务。i 这里的 ■词性标注 词性类别可能是名词、动词、形容词或其他。下面的句子是一个词性标注的例子。其中, v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 国务院/ni总理/n李克强/nh调研/w上海/ns外高桥/ns时/n捏出/N,/p支持/v上海/ns积极/a探索/N 新/a机制/n。/wp 词性作为对词的一种泛化,在语言识别、句法分析、 信息抽取等任务中有重要作用。比方说,在抽取“歌 曲"的相关属性时,我们有一系列短语 儿童歌曲欢快歌曲各种歌曲悲伤歌曲· 如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如 [形容词]歌曲[名词]歌曲 而[代词]歌曲往往不是描述歌曲属性的模板。 B,英英 NLP
By 郭凤英 如何做语言分析? 词性标注 词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的 词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中, v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制
■如何做语言分析? Tag Description Example Tag Description Example adjective 美丽 ni organization name 保险公司 ■词性标注 b other noun-modifier 大型,西式 location noun 城郊 conjunction 和虽然 ns geographical name 北京 d adverb 很 nt temporal noun 近日,明代 e exclamation 哎 nz other proper noun 诺贝尔奖 morpheme 茨,甥 0 onomatopoeia 晔啦 h prefix 阿,伪 0 preposition 在,把 i idiom 百花济放 q quantity 个 j abbreviation 公检法 pronoun 我们 suffix 界,率 auxiliary 的,地 m number 一,第 verb 跑,学习 n general noun 苹果 wp punctuation 。 nd direction noun 右侧 ws foreign words CPU nh person name 杜甫,汤姆 X non-lexeme 萄,翱 NLP
By 郭凤英 如何做语言分析? 词性标注
■如何做语言分析? ■命名实 命名实体识别(Named Entity Recognition,NER)是在句子的词序列中定位并识别人名、地 名、机构名等实体的任务。 体识别 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 国务院(机构名)总理李克强(人名)调研上海外高桥(地名)时提出,支持上海(地名)积极探索新机制。 命名实体识别的类型一般是根据任务确定的。通常提供最基本的三种实体类型人名、地名、机构 名的识别。我们可以很容易将实体类型拓展成品牌名、软件名、中药名、处方名等实体类型。 命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。 B,英英 NLP
By 郭凤英 如何做语言分析? 命名实 体识别 命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地 名、机构名等实体的任务。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。 命名实体识别的类型一般是根据任务确定的。通常提供最基本的三种实体类型人名、地名、机构 名的识别。 我们可以很容易将实体类型拓展成品牌名、软件名、中药名、处方名等实体类型
■研究内容 词法(Lexical)学:研究词的词素(morphemes)构成、词性等 ●形态(morphological)分析 ●1 中文分词(segmentation) employers stemming.employ +er+ 你 的什么样的电脑? ambiguities employers lemmatize employer +~s 家用 电脑。 词素(morphemes)→词(word)? 你的 牙 了吗?我的牙刷 不见了。 词根、前缀、后缀、词尾 把 手 举起来!这个把是木制的。 ●未登录词(out of vocabulary word)识别 词性标注(POS tagging) 宅男,推特模式口,新奥尔良 哥白尼说 方舟子,罗姆尼,钓鱼岛 哥白尼日心说 阿里巴巴… By英英 NLP
By 郭凤英 研究内容