汉语指代消解与省略恢复研究


摘要

自然语言提供了人们表达思想的丰富手段,但也正是这一丰富多彩的特点导致了计算机对其处理的巨大困难,指代消解和省略恢复便是其中公认的两大困难点。随着自然语言处理应用的不断扩展,越来越多的语言学家和计算机工作者开始关注相关研究。

指代消解就是要确定照应语(代词)与先行语之间的照应关系,而省略恢复则是要确定省略的对象或内容究竟是什么,本质上是一种特殊的照应。

指代和省略在文本中普遍存在。这一普遍性已成为篇章(discourse)处理必须面对的关键问题。许多应用领域,如信息抽取(IE)机器翻译和文本总结,都与指代消解和省略恢复密不可分。例如,对IE而言,著名的信息理解会议MUC对此提供了专门的评估系统,而照应的消解便是其中最重要的内容之一。因为IE主要是用于对其中感兴趣的实体进行抽取的,如果不确定实体的共指关系(主要是照应关系),就有可能使相同的实体不同对待,从而,误被多次抽取。

基于上述特点,本文在HNC基础上,提出了人称代词、指示代词的消解和省略恢复的策略。主要包括如下内容:

  1. 对HNC的基本概念,尤其是句类和语义块相关的概念作了简要说明。句类是句子的核心,它决定着语义块的内在属性以及语义块之间的相互关系,作为出现在广义对象语义块中代词和省略,与语义块的这些特有性质密切相关。
  2. 对人称代词和先行语之间的约束关系以规则的形式作了描述,这些规则分别起过滤和优选的作用。
  3. 指示代词有两种表现形式:独立作为指代以及指代体的形式(有定描述)作为指代,本报告针对汉语指代体常常出现分离的现象给出了一列的表示模式和相应的构成规则。然后,分别对这两种形式,给除了相应的消解策略,主要包括不消解情况的判定,预指与返指的判定,先行语类别的界定、具体的消解规则以及量化情况的处理,然后给出了共指链构造的一般思想。
  4. 讨论了汉语省略的界定标准和判定策略,并结合指代消解策略,给除了省略恢复的基本规则。

关键词: 人称代词消解,指示代词消解,省略恢复,先行语,句类,语义块,句蜕。