汉语句类分析中单字处理研究

孙雄勇



摘  要

本文面向汉语自然语言处理研究。因为汉语自身的特点,汉语语句处理出现了许多难点。单字处理是汉语处理面临的重大难点之一,这主要有两个原因:一是汉语单字兼类现象异常严重。一个汉字具有两个或两个以上的义项非常普遍,义项不同但汉字形式却没有任何变化,而自然语言处理需要正确确定其义项。二是汉语单字具有极强的组合特征。在语句中,单字与其相邻字词之间常常发生组合,形成新词。我们进行汉语自然语言处理,需要正确将新词作为一个意义单位来处理。而新词的属性、意义与构成它的单字属性、意义有什么关联?如何通过单字来获得新词的义项?这都是我们急需解决的问题。

HNC提出了从概念空间来处理自然语言的方法,它的关键技术称之为句类分析技术。单字处理研究是句类分析的一个重要组成部分。本文在概念基元符号体系和句类体系的基础上,围绕汉语句类分析中出现的单字兼类现象和单字构词展开研究。单字处理研究不仅是语义块内部构成分析的重要组成部分,而且它也为句类分析中语义块感知假设提供了丰富的线索信息,还为含有单字v概念的语句句类的确定提供了关键信息。这项研究将有助于提高句类分析的水平。

在研究方法上,本文现象描述部分重在统计与归纳;分析部分则既有归纳也有演绎。规则的提取基于语言现象的统计描述和语言学的理论阐释相结合,是归纳和演绎并举。本文立足于概念空间,通过对单字概念的分析、归纳和演绎,提出了单字处理的策略,总结了单字处理的规律。

围绕句类分析的需要,本文将单字处理细化为五个方面:语言逻辑概念的处理、单字v概念处理、基本命名处理、活跃语素处理、基本概念(时空数)处理。从概念的角度出发,本文针对上述五个方面提出了处理策略,特别在语言逻辑概念处理、单字v概念处理和基本命名处理等方面进行了深入的研究,归纳总结了相关处理规则。结果可服务于扩展句类分析平台。

本文的主要创新点表现为:

(1)          HNC概念基元符号体系基础上形成了处理单字的方法。概念基元符号体系在语义上揭示了概念的基元性和系统性,描述了概念之间的关联性。使我们能够在概念空间探索和制定单字处理的策略和方法。有效的消解了单字带来的兼类问题,较好的解决了单字构词的问题。经过我们对语料(约46000字)的考察,本文从概念基元符号体系出发的规律涉及了80%以上的单字现象。

(2)          提出了在句类体系基础上处理单字的方法。句类是语句的语义类型,在此基础上,单字处理不仅仅局限在短语和词汇层面,进一步在语句层面制定了解决单字问题的策略和方法,同时也分析制定了单字服务于句类分析的处理策略。

(3)          界定了单字处理的类型。在单字八类的基础上,针对句类分析,提出了五大处理类型。通过对语料(约46000字)的统计,该分类涵盖了约92%的单字现象。并在语言概念空间对每一类处理类型进一步分类,细化了句类分析中单字处理难题,为深入分析探索句类分析中单字处理的策略和规律做好了准备。

(4)          提出了单字v概念组合形成语句句类的策略和方法。研究了单字v概念与其前面或后面邻接概念组合构成新词的问题,系统的总结了单字v概念的各种构词方式以及它们形成的句类代码,为正确获得语句的句类代码提供了解决策略和处理规则。经过对1000句包含单字v概念的语句的测试,正确率达到了89.9%,召回率达到了92.4%

(5)          系统地总结了根据词末尾单字概念处理汉语基本命名、活跃语素的策略和方法。汉语基本命名和活跃语素均具有使其前面词语属性发生变化的功能,因此,根据它们位于词语末尾的特性,总结了每一类概念的构词方式和组合特点,结果有助于语义块构成分析处理。还从特征语义块感知、识别出发,分析了单字概念对语义块感知的作用。

综上所述,在HNC理论框架下,本文系统研究了句类分析中单字处理问题,并提出了相应的处理策略,在单字v概念处理、基本命名处理以及基本概念短语处理等方面归纳总结了具体的规则。本文的结果将有助于深化句类分析中有关单字词处理的研究。

 

关键词:HNC理论;句类分析;单字处理;规则。