大数据时代的自然语言处理: 前沿与进展 孙茂松 清华大学计算机科学与技术系 第十四届中国少数民族语言文字信息处理 学术研讨会 2013年9月14日,兰州
大数据时代的自然语言处理: 前沿与进展 1 孙茂松 清华大学计算机科学与技术系 第十四届中国少数民族语言文字信息处理 学术研讨会 2013年9月14日,兰州
目录 1.引言 2.三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3.题外话
目录 1. 引言 2. 三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3. 题外话
目录 1.引言 2.三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3.题外话
目录 1. 引言 2. 三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3. 题外话
现实世界、网络空间与人类认知 三位一体:有史以来深度和广度最蔚为壮观的虚实结合的空间 “人本传感器”:中国网民规模达5.64亿,微博用户3.09亿(2013年1月) “人本传感器”信号:仅新浪微博每日发布超过1亿条微博(2012年12月) 人本传感器 感知/认知 社会行为 写读 现实 over 网络一中文 世界 豆播加以NA网空间 大数据 O新浪微博 臏讯微博 时空中的人、物、事
现实世界、网络空间与人类认知 • 三位一体:有史以来深度和广度最蔚为壮观的虚实结合的空间 – “人本传感器”:中国网民规模达5.64亿,微博用户3.09亿(2013年1月) – “人本传感器”信号:仅新浪微博每日发布超过1亿条微博(2012年12月) 4 现实 世界 网络 空间 人类 认知 时空中的人、物、事 感知/认知 社会行为 写 阅 读 中文 大数据 人本传感器
机器阅读理解互联网 人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识 机器阅读理解网络空间的中文信息是实现网络洞察力的关键 人本传感器 感知/认知 社会行为 写读 现实 over 网络一中文 世界 豆b如M△8空间→大数据 O新浪微博 臏讯微博 时空中的人、物、事
机器阅读理解互联网 5 现实 世界 网络 空间 人类 认知 时空中的人、物、事 感知/认知 社会行为 写 中文 大数据 人本传感器 • 人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识 • 机器阅读理解网络空间的中文信息是实现网络洞察力的关键 阅 读
机器阅读理解互联网 人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识 机器阅读理解网络空间的中文信息是实现网络洞察力的关键 形式化 人类认知 机 人本传感器 感知/认知 社会行为 写目理 解 现实 over 网络一中文 世界 豆山如以A空间→大数据 O新浪微博 臏讯微博 时空中的人、物、事 6
机器阅读理解互联网 • 人类“管中窥豹式”阅读难以形成对虚实空间完整准确的认识 • 机器阅读理解网络空间的中文信息是实现网络洞察力的关键 6 网络 空间 人本传感器 人类 认知 感知/认知 社会行为 现实 世界 时空中的人、物、事 中文 大数据 写 机 器 理 解 形式化 人类认知
目录 1.引言 2.三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3.清华最近NLP相关工作
目录 1. 引言 2. 三个重要前沿及其进展 (1)基于深度学习的句子结构预测 (2)开放域信息抽取 (3)知识图谱 3. 清华最近NLP相关工作
自然语言处理的根本任务 输入: 日本臆测中国武力夺取钓鱼岛 结构预测 VP 臆测 日本 夺取 NP NP NP 中国钓鱼岛武力 输出:"1 日本臆测中国武力夺取钓鱼岛 句法结构 语义结构 语言计算的本质是结构预测 8
自然语言处理的根本任务 语言计算的本质是结构预测 8 输入: 输出: 结构预测 日本臆测中国武力夺取钓鱼岛 夺取 中国 钓鱼岛 臆测 日本 武力 句法结构 语义结构
从例句说起 Your query 美国反基为何越反越恐? ) NLP Segmentation 美国反恐为何越反越恐? Tagging 美国/NR反恐/NN为何/A越/AD反/w越/NR恐/NN?/PU Parse (ROOT (工P 美国 (NP(NN反恐)) (VP (ADVP(AD为何) (DVP(aD越) 反 (NP (NP(NR越) (NP(NN恐))) (PU?))
从例句说起 9
从例句说起 Your query ) 美国发现治疗重症流感药物 NLP Segmentation 美国发现治疗重症流感药物 Tagging 美国/NR发现/w治疗/w重症/NN流感/NN药物/NN Parse (ROOT (工P (NP(NR美国)) (ⅴP(wV发现) (工P (VP(w治疗) (NP(NN重症)(NN流感)(NN药物))) 10
从例句说起 10