第2期 朱倩,等:汉语句子语义三维表示模型 ·127· 工具格(NST):完成该动作所使用的工具 指句子不是孤立的,需要推理才能确定其句义 很显然,这种层级的语义角色也是基于动词的 自然语言的陈述中,也常常有很多不合语法、不合常 不过,它不是基于一个具体的动词,而是基于具有句 理的地方,听者在解读这些陈述时会在生活常识的 法、语义共性的一类的动词.比如,表示运动的动词 基础上自然地加以校正 可能会涉及处所、源点和终点、或路径等语义格,表 例:那天在商店里,看见一盆花,漂亮极了,但是 示转让的动词可能会涉及施事、与事和受事等语义 价格很高,买回去恐怕要挨骂 格.这种语义角色可以说是语言学文献上讨论得最 任何人听了都会在生活常识的基础上迅速地通 多的,但是,也是最难以给出合适的定义的语义范 过联想推理判断)与选择”理解为那天(我)在 畴.以至于Dow声称,“要想系统、一致地给所 商店里,我)看见一盆花,这盆花)漂亮极了,但是 有动词的全部配项标明语义格,这在经验上几乎是 这盆花的)价格很高,(如果我把它)买回去恐怕 不可能的” 我)要挨(家里人的)骂 3)宏观层次 没有生活常识和推理、判断能力的计算机能作 鉴于中观层面上各种语义格的定义和区别的纠 出这样合乎情理的补充吗?实际生活中,需要“信 缠不清,清华大学孙茂松教授只对语料标注因和 息校正的说法还在不断地产生 “果”2种语义角色;开发了一个400万词规模的汉 3)主体的思维状态 语语义骨架标注语料库,对每个句子标注有面向语 例:张三相信李四喜欢王五 义的因事(S)、中心谓词(V)和果事(O)块信息 张三想当老师 义原除了指语义角色外还包含知识本体,有关 他答应明天去办 知识本体的内容不在本文讨论 含有“信念”、“愿望”、“意图”、“规划”、“承 3.4义境 诺”、“义务等词语的句子涉及到主体的思维状态 义境是语境的简称,语境有广义与狭义之分的 也是一种语境.如何处理这样的语境也有一些研究 说法.广义语境包括句子自身(简称上下文)和句子 成果,如:Church的内涵逻辑和分布式人工智能所 形成过程的外部环境(简称语域).对人类交际者来 研究的Agen理论等,本文不做深入讨论 说,上下文与语域的区分是清晰的.上下文里蕴涵着 4)领域背景 现场语言信息(简称言内信息),语域里蕴涵着语言 指说话者和听话者的知识水平要在同一个层次 之外的现场和相关的积累信息(简称言外信息).言 上,即说清楚”是相对的.同样一种表述,对人是 内信息与言外信息相互耦合形成交际语境,在此过 说清楚了,对计算机就往往没有说清楚”,对大 程中,交际者得以实现对自然语言的理解5).但是 人算是说清楚了,对小孩就往往没有说清楚” 对当前的计算机来说,言外信息是不存在的,不具备 对专家算是说清楚”了,对一般人就往往“没有说 言内信息与言外信息相互耦合的基本条件也就不可 清楚”一段正确的C语言程序对于装备有C编译 能形成交际语境;因此,必须在交际语境基础上进行 器的计算机算是说清楚”了,对没有装备有C编译 一定的简化,从而形成计算机语境的框架形式,即交 器的计算机就没有说清楚”所以,说清楚的第 互语境的框架6].具体的讲,义境研究如下问题: 一个必要条件就是给出的信息所表达的内容能够 1)常识 和对方己有的知识相结合”,能够为对方所“理解” 例:a蓝球放在桌子上 4基于三维语义模型的汉语句子表示 b地球放在桌子上 根据常识可以断定,句子a可能为真,而句子b41语义表示的原则 一定为假 汉语句义表示,主要遵循2条最基本的原则, 人们至今不能确定,计算机究竞应该储存多少 即组合原则和同构原则 常识和专门知识,才能达到令人满意的自然语言理 1)在语形方面,遵循结构主义的组合原则,根 解水平 据组合原则,可将句子我们遵循结构主义的组合 2)上下文 原则”分层为“(我们)(遵循)(((结构)(住义) 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 工具格 ( INST) :完成该动作所使用的工具. 很显然 ,这种层级的语义角色也是基于动词的. 不过 ,它不是基于一个具体的动词 ,而是基于具有句 法、语义共性的一类的动词. 比如 ,表示运动的动词 可能会涉及处所、源点和终点、或路径等语义格 ,表 示转让的动词可能会涉及施事、与事和受事等语义 格. 这种语义角色可以说是语言学文献上讨论得最 多的 ,但是 ,也是最难以给出合适的定义的语义范 畴. 以至于 Dowty [ 14 ]声称 ,“要想系统、一致地给所 有动词的全部配项标明语义格 ,这在经验上几乎是 不可能的 ”. 3)宏观层次 鉴于中观层面上各种语义格的定义和区别的纠 缠不清 ,清华大学孙茂松教授只对语料标注“因 ”和 “果 ”2种语义角色 ;开发了一个 400万词规模的汉 语语义骨架标注语料库 ,对每个句子标注有面向语 义的因事 (S) 、中心谓词 (V) 和果事 (O) 块信息. 义原除了指语义角色外还包含知识本体 ,有关 知识本体的内容不在本文讨论. 3. 4 义境 义境是语境的简称 ,语境有广义与狭义之分的 说法. 广义语境包括句子自身 (简称上下文 )和句子 形成过程的外部环境 (简称语域 ). 对人类交际者来 说 ,上下文与语域的区分是清晰的. 上下文里蕴涵着 现场语言信息 (简称言内信息 ) ,语域里蕴涵着语言 之外的现场和相关的积累信息 (简称言外信息 ). 言 内信息与言外信息相互耦合形成交际语境 ,在此过 程中 ,交际者得以实现对自然语言的理解 [ 15 ] . 但是 对当前的计算机来说 ,言外信息是不存在的 ,不具备 言内信息与言外信息相互耦合的基本条件也就不可 能形成交际语境 ;因此 ,必须在交际语境基础上进行 一定的简化 ,从而形成计算机语境的框架形式 ,即交 互语境的框架 [ 16 ] . 具体的讲 ,义境研究如下问题 : 1)常识 例 : a. 蓝球放在桌子上. b. 地球放在桌子上. 根据常识可以断定 ,句子 a可能为真 ,而句子 b 一定为假. 人们至今不能确定 ,计算机究竟应该储存多少 常识和专门知识 ,才能达到令人满意的自然语言理 解水平. 2)上下文 指句子不是孤立的 ,需要推理才能确定其句义. 自然语言的陈述中 ,也常常有很多不合语法、不合常 理的地方 ,听者在解读这些陈述时会在生活常识的 基础上自然地加以校正. 例 :那天在商店里 ,看见一盆花 ,漂亮极了 ,但是 价格很高 ,买回去恐怕要挨骂. 任何人听了都会在生活常识的基础上迅速地通 过“联想、推理 (判断 )与选择 ”理解为那天 (我 )在 商店里 , (我 )看见一盆花 , (这盆花 )漂亮极了 ,但是 (这盆花的 )价格很高 , (如果我把它 )买回去恐怕 (我 )要挨 (家里人的 )骂. 没有生活常识和推理、判断能力的计算机能作 出这样合乎情理的补充吗 ? 实际生活中 ,需要“信 息校正 ”的说法还在不断地产生. 3)主体的思维状态 例 :张三相信李四喜欢王五. 张三想当老师. 他答应明天去办. 含有“信念 ”、“愿望 ”、“意图 ”、“规划 ”、“承 诺 ”、“义务 ”等词语的句子涉及到主体的思维状态 , 也是一种语境. 如何处理这样的语境也有一些研究 成果 ,如 : Church的内涵逻辑和分布式人工智能所 研究的 Agent理论等 ,本文不做深入讨论. 4)领域背景 指说话者和听话者的知识水平要在同一个层次 上 ,即“说清楚 ”是相对的. 同样一种表述 ,对人是 “说清楚 ”了 ,对计算机就往往“没有说清楚 ”;对大 人算是“说清楚 ”了 ,对小孩就往往“没有说清楚 ”; 对专家算是“说清楚 ”了 ,对一般人就往往“没有说 清楚 ”. 一段正确的 C语言程序对于装备有 C编译 器的’ 计算机算是“说清楚 ”了 ,对没有装备有 C编译 器的’ 计算机就“没有说清楚 ”. 所以 ,“说清楚 ”的第 一个必要条件就是“给出的信息所表达的内容能够 和对方已有的知识相结合 ”,能够为对方所“理解 ”. 4 基于三维语义模型的汉语句子表示 4. 1 语义表示的原则 汉语句义表示 , 主要遵循 2条最基本的原则 , 即组合原则和同构原则. 1)在语形方面 , 遵循结构主义的组合原则 , 根 据组合原则 , 可将句子“我们遵循结构主义的组合 原则 ”分层为“ ( (我们 ) ( (遵循 ) ( ( (结构 ) (主义 ) 第 2期 朱 倩 ,等 :汉语句子语义三维表示模型 ·127·