第2期 朱倩,等:汉语句子语义三维表示模型 ·129· SE、SHA PE… 定义6设Y、分别为句子S,和句子S2对应 量化关系:ALL、SOME、FEW、MANY… 的义原.令2=y∩Y2,如果μ=1完全重叠),则 语言符号:IOK佣于连接YY和M) S,和S2同义:如果2=0不交),则S,和S2不相 集合关系:SUB、EQ、PARTOF 干;其他情况的山:即定义为S,和S2相似度 对于具体给定的系统这些关系还可进一步扩充 定义7如果对句子S,存在2个义境、,它 语义三维表示模型的数据结构是一个框架网. 们分别对应句子S,的义原为Y、y,令2=上门 框架网由若干框架组成,每个框架视为一个义境,框 Y,如果μ≠1不完全重叠),则S一句多义 架的曹即为义原,框架曹的值即为义面 有关2个深层结构表示的交运算将在后文讨论 这种框架网很容易转换为面向对象的表示,为 5结束语 三维语义的实现提供了技术支持 44基于三维模型的语义分析 目前,我国的汉语研究还远远不能满足中文信 通过一个实例来说明基于语义三维表示模型的 息处理的需要.除了汉语书面语不分词连写、缺少形 语义分析过程 态变化、缺省部件等以外,汉语的语法研究一直受到 例如:张三看见了李四正在酒吧喝酒 西方语言学理论的影响,始终没能形成汉语自己的 这个例子的简化框架网络表示如下: 理论体系,总是带着印欧语的眼光来看待汉语、研究 YYI TOK YI YMI CY 看见 汉语,这就难免会削足适履.还有现有的面向中文信 TM PAST CX2 V 息处理的汉语研究主要不是面向语义,而是面向句 DAT YM2 Y2 CY 张三 法.这是现有汉语研究的一个最大缺憾,所以难以 OBJ YY2 CX2 N 从真正意义上解决中文信息处理中遇到的问题.正 LOC YM6 M3CY喝 因为现有的面向中文信息处理的汉语研究存在这样 … CX2 V 的问题,所以汉语语义的研究已经成为中文信息处 YY2 TOK YM3 YM4 CY 李四 理—一个阻碍信息社会经济发展的首要瓶颈问 TM PROG PAST CX2 N 题.为此,汉语计算语义理论应该建立在内涵逻辑模 AGT YM4 YM5 CY 酒 型解释下的真正意义上的自然语言理解.也就是说, OBJ YM5 CX2 N 汉语计算语义理论研究主要不是着眼于句法,而是 LOC YM6 YM6 CY 酒吧 CX2 以语义分析为核心,辅以句法分析.要吸收句法分 析研究的一切成果,但是面向中文信息处理的汉语 有了这样的框架网结构,很容易写一个算法,形 研究的目标必须定位在语义分析,尽管目前的语义 成词与关系的线性序列: 自动分析研究还困难重重,研究基础也极为薄弱.正 看见DAT张三OB喝AGT四OBJ酒吧LOC酒 所谓,取乎其上,得乎其中.必须把目标定得高些,当 YYI YY2 YY3 YY4 YY6 YY5 然,实际研究中,还必须脚踏实地,从基础做起 这就比源语言有了更明确的语义关系,实际上相当 本文基于假设“在特定的义境下,义面和义原 于理解为:“看见”有间接受事者张三”,客体是李 是惟一的”讨论了语义三维模型的数据结构 四”,中心谓语是喝”施事者“李四”,具体地点 框架网和单句的语义分析的基本原理.模型中所涉 “酒吧”,有关的“酒” 及的一些关键问题,如:义面到义原的映射问题、篇 45基于三维模型的语义计算 章的语义分析问题等将是今后研究的主要任务, 表示的目的是为了计算,语义计算有3层含义: 同一个句子有几个意思(一句多义问题)?如何判 参考文献: 断不同句子意思是相似的(2句相似问题)?如何判 [I]JURAFSKY D,MARTN J H冯志伟,孙乐,译.自然 断真值相以而句义不相干(2句相关问题)?这3个 语言处理综论[M]北京:电子工业出版社,2005:80-92 问题是句子语义计算的核心问题 [2]KWONGO Y,TSOU B K Semantic role tagging for Chinese 根据42,在特定的义境下,可将句子映射为义 at the lexical level[C]//Proceedings of DCNLP2005.Ali- 原深层结构)给出如下定义: cante,Spain,2005:411-416 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net SIZE、SHAPE…… 量化关系 : ALL、SOME、FEW、MANY…… 语言符号 : TOK(用于连接 YY和 YM) 集合关系 : SUB、EQ、PART OF…… 对于具体给定的系统 ,这些关系还可进一步扩充. 语义三维表示模型的数据结构是一个框架网. 框架网由若干框架组成 ,每个框架视为一个义境 ,框 架的曹即为义原 ,框架曹的值即为义面. 这种框架网很容易转换为面向对象的表示 ,为 三维语义的实现提供了技术支持. 4. 4 基于三维模型的语义分析 通过一个实例来说明基于语义三维表示模型的 语义分析过程. 例如 :张三 看见 了 李四 正在 酒吧 喝 酒 这个例子的简化框架网络表示如下 : YY1 TOK YM1 YM1 CY 看见 TIM PAST CX2 V DAT YM2 YM2 CY 张三 OBJ YY2 CX2 N LOC YM6 YM3 CY 喝 …… CX2 V YY2 TOK YM3 YM4 CY 李四 TIM PROG PAST CX2 N AGT YM4 YM5 CY 酒 OBJ YM5 CX2 N LOC YM6 YM6 CY 酒吧 …… CX2 N 有了这样的框架网结构 ,很容易写一个算法 ,形 成词与关系的线性序列 : 看见 YY1 DAT张三 YY2 OBJ喝 YY3 AGT李四 YY4 OBJ酒吧 YY6 LOC酒 YY5 这就比源语言有了更明确的语义关系 ,实际上相当 于理解为 :“看见 ”有间接受事者“张三 ”,客体是“李 四 ”,中心谓语是“喝 ”. 施事者“李四 ”,具体地点 “酒吧 ”,有关的“酒 ”. 4. 5 基于三维模型的语义计算 表示的目的是为了计算 ,语义计算有 3层含义 : 同一个句子有几个意思 (一句多义问题 ) ? 如何判 断不同句子意思是相似的 (2句相似问题 ) ? 如何判 断真值相似而句义不相干 (2句相关问题 ) ? 这 3个 问题是句子语义计算的核心问题. 根据 4. 2,在特定的义境下 ,可将句子映射为义 原 (深层结构 ). 给出如下定义 : 定义 6 设 Y1、Y2分别为句子 S1和句子 S2对应 的义原. 令μ12 = Y1 ∩Y2 ,如果μ = 1 (完全重叠 ) ,则 S1 和 S2 同义;如果 μ12 = 0 (不交 ) ,则 S1 和 S2 不相 干;其他情况的 μ12 即定义为 S1 和 S2 相似度. 定义 7 如果对句子 S1 存在 2个义境 J1、J2 ,它 们分别对应句子 S1 的义原为 Y1、Y2 ,令 v12 = Y1 ∩ Y2 ,如果 μ≠ 1 (不完全重叠 ) ,则 S1 一句多义. 有关 2个深层结构表示的交运算 ,将在后文讨论. 5 结束语 目前 , 我国的汉语研究还远远不能满足中文信 息处理的需要. 除了汉语书面语不分词连写、缺少形 态变化、缺省部件等以外 ,汉语的语法研究一直受到 西方语言学理论的影响 ,始终没能形成汉语自己的 理论体系. 总是带着印欧语的眼光来看待汉语、研究 汉语 ,这就难免会削足适履. 还有现有的面向中文信 息处理的汉语研究主要不是面向语义 ,而是面向句 法. 这是现有汉语研究的一个最大缺憾 ,所以难以 从真正意义上解决中文信息处理中遇到的问题. 正 因为现有的面向中文信息处理的汉语研究存在这样 的问题 ,所以汉语语义的研究已经成为中文信息处 理 ———一个阻碍信息社会经济发展的首要瓶颈问 题. 为此 ,汉语计算语义理论应该建立在内涵逻辑模 型解释下的真正意义上的自然语言理解. 也就是说 , 汉语计算语义理论研究主要不是着眼于句法 , 而是 以语义分析为核心 , 辅以句法分析. 要吸收句法分 析研究的一切成果 ,但是面向中文信息处理的汉语 研究的目标必须定位在语义分析 ,尽管目前的语义 自动分析研究还困难重重 ,研究基础也极为薄弱. 正 所谓 ,取乎其上 ,得乎其中. 必须把目标定得高些 ,当 然 ,实际研究中 ,还必须脚踏实地 ,从基础做起. 本文基于假设“在特定的义境下 ,义面和义原 是惟一的 ”. 讨论了语义三维模型的数据结构 ——— 框架网和单句的语义分析的基本原理. 模型中所涉 及的一些关键问题 ,如 :义面到义原的映射问题、篇 章的语义分析问题等将是今后研究的主要任务. 参考文献 : [ 1 ]JURAFSKY D, MARTIN J H. 冯志伟 , 孙 乐 ,译. 自然 语言处理综论 [M ]. 北京 :电子工业出版社 , 2005: 80292. [ 2 ] KWONG O Y, TSOU B K. Semantic role tagging for Chinese at the lexical level[C ] / / Proceedings of IJCNLP 2005. A li2 cante, Spain, 2005: 4112416. 第 2期 朱 倩 ,等 :汉语句子语义三维表示模型 ·129·