非句蜕广义对象语义块的分析与处理

熊 亮



摘 要


 

    本文研究汉语非句蜕广义对象语义块的构成。本文的研究源于对汉语句类分析研究的深入。句类分析的策略是从语义块感知入手,先句类假设检验,后语义块构成处理。当前句类分析的研究中,全局特征语义块的感知规则,特别是动词连见的处理研究,都已经取得了丰硕的研究成果。然而在广义对象语义块(简称GBK)这一方面,系统的研究还需加强。与语句构成知识的阐释相比,语义块构成知识的阐述还不够系统和成熟。在句类分析平台中,语义块构成处理是最薄弱的环节,一方面是因为还没有实际处理到语义块构成阶段,另一方面语义块构成处理中存在许多有待解决的难点。

    语义块构成处理是句类分析三部曲的重要一环,广义对象语义块分为非句蜕GBK和句蜕GBK两种形式。非句蜕GBK主要是由一些体词以及体词化的动词组成的联合体,对应于语言空间中为词和词组的情形。非句蜕GBK是构成整个GBK体系的基础。本文将非句蜕GBK的基本组合关系分为并列、修饰和名词团块三种,在研究中引入区分度的概念,探索了非句蜕GBK各成分优先组合和语序排列的规律,提供了从局部对语义块进行构成分析的线索,并结合句类知识加以检验。然后还研究了专有名词的构成以及广义对象语义块的边界切分,完善了对广义对象语义块的研究。

    在研究方法上,引入了一个封闭语义块内部的区分度递减模型,着重分析非句蜕GBK构成的表现形式和规律,结合每一种非句蜕GBK基本组合关系的内容,通过对真实文本中的语料进行分析,总结归纳出非句蜕GBK处理的规律和具体规则,并在一定规模的语料中进行了验证。对语言现象的描述重在归纳和统计,理论探索部分以分析为主,在对语言现象的统计和语言学的理论阐释基础上提取出规则。

    在HNC理论已有研究的基础上,本文开展了相关的研究工作,主要贡献和创新点如下: 

1、首次对非句蜕广义对象语义块的构成进行了系统的研究。非句蜕GBK是构成整个GBK体系的基石,其研究意义不言而喻。文中提出了非句蜕GBK的三种基本组合方式,详细论述了各自构成的特点和规律。指出在语言中绝大多数非句蜕GBK都含有组合关系,多数情况下为这三种组合关系的复合。三种组合关系的识别主要依据构成语义块的词汇的概念类别和HNC概念表达式,并且需要结合句类知识来进行。

2、通过对非句蜕GBK三种基本组合方式的构成研究,发现其优先组合和语序受概念区分度大小的制约,提出了在一个封闭的非句蜕GBK内的区分度递减通则,认为非句蜕GBK内部各成分的区分度是一个递减序列,并且区分度差值越小的概念越优先组合。还推演出概念之间组合时概念优先组合和语序的规则,提出了利用区分度的比较来进行识别的策略。

3、GBK边界切分问题进行了全面的研究并提出了初步解决方案。根据与GBK邻接的语义块类型,将GBK边界切分问题分为GBK-GBK型,GBK-EK型,GBK-fK型三类。GBK的边界切分处理是将句类知识和区分度递减通则结合起来使用的,体现出全局联想脉络和局部联想脉络的有机结合。

4、研究了专有名词的概念和分类,认为专有名词和普通名词的最大区别在于前者带有特定的命名部分。通过在语料中的分析,得出专有名词的基本结构为:专有命名词+领域概念词+通名,同样满足区分度递减通则。因此将区分度作为识别专有名词的一个线索。

    综上所述,本文系统研究了非句蜕GBK的构成,包括三种基本组合关系、专有名词处理以及GBK边界的切分,并提出了相应的处理策略。本文研究深化了句类分析系统中语义块构成处理的探索,为提高扩展句类分析平台综合处理能力提供了基础。

 

 

关键词:广义对象语义块;HNC理论;区分度;非句蜕