汉语指代消解与省略恢复研究
摘要
自然语言提供了人们表达思想的丰富手段,但也正是这一丰富多彩的特点导致了计算机对其处理的巨大困难,指代消解和省略恢复便是其中公认的两大困难点。随着自然语言处理应用的不断扩展,越来越多的语言学家和计算机工作者开始关注相关研究。
指代消解就是要确定照应语(代词)与先行语之间的照应关系,而省略恢复则是要确定省略的对象或内容究竟是什么,本质上是一种特殊的照应。
指代和省略在文本中普遍存在。这一普遍性已成为篇章(discourse)处理必须面对的关键问题。许多应用领域,如信息抽取(IE)机器翻译和文本总结,都与指代消解和省略恢复密不可分。例如,对IE而言,著名的信息理解会议MUC对此提供了专门的评估系统,而照应的消解便是其中最重要的内容之一。因为IE主要是用于对其中感兴趣的实体进行抽取的,如果不确定实体的共指关系(主要是照应关系),就有可能使相同的实体不同对待,从而,误被多次抽取。
基于上述特点,本文在HNC基础上,提出了人称代词、指示代词的消解和省略恢复的策略。主要包括如下内容:
关键词: 人称代词消解,指示代词消解,省略恢复,先行语,句类,语义块,句蜕。