一、句类分析难点14

1.14 体词多义模糊难点(14号难点,标记:w*)

从本节开始,讨论局部性难点。难点及其处理策略的说明将同时进行。

HNC对体词的定义是:凡概念类别栏目中带五元组符号但不以单个v为第一属性的词,都属于体词。这就是说,vB vC类词语也属于体词。按照这一定义,体词之外,另有动词和虚词。三类词之外,各种语言还有语素符号h q。

动词的定义是:概念类别栏目中带五元组符号并以单个v为第一属性的词。

虚词的定义是:不带五元组符号的语义块标记和说明符,即与相应l类概念对应的词。

这些定义与传统定义有共同点,但又有根本区别。为什么不照搬传统定义?为什么还另外定义了特殊符号f h q?《专著》对此论述过于简略,将另写长篇专文加以说明。

汉语的体词多义模糊难点与西语有重大区别。一般来说,汉语的双字或多字词在纯体词意义下的多义模糊比西语小得多,单字体词的模糊度大体与西语相当。但汉语体词与动词的兼类现象远比西语严重。例如“领导”,按上述定义,属于体词而不是动词,语料标注时属于14号难点。由此可知,所谓14号难点,其第一表现就是体词的动词兼类现象,是2号甚至是1号难点的另一表现形式。

14号难点的第二类表现是体词兼有h特性,如“好,里,界…”等。

14号难点的第三类表现是体词兼有h v特性,如“上,下…”等。

软件对汉语14号难点的处理,必须区分这3类表现,分别采取不同的处理策略。3类表现的区分在词语知识库的概念类别栏目中有明确的指示信息,对于文字文本,处理前提是毫不含糊的。

对第一类表现,关键举措是查看该词前面有无上装QE或Eu,或后面有无下衣hv。如果上装前或下衣后无“的”,一律先按动词处理。否则一律先按体词处理。

对第二类表现,关键举措是确定组合处理的方向,是仅作前向组合处理还是要作双向组合处理?处理方向的引导信息在字知识库中应有明确指示。对语音文本,曾把这一处理叫做段接处理,对文字文本仍然可以沿用这一术语。

对第三类表现,关键举措是先作前向组合处理。如果前面是单音动词,先作为hv处理;如果是QE或Eu,先作动词处理;此外(包括双音动词情况)一律先按体词处理。

14号难点为局部性难点之首,体现下列各项难点(包括17号难点)的共性。前后向组合处理是解决这一难点的关键。为什么叫局部难点?一方面它属于语义块内部构成问题,另一方面它的前后向处理是紧邻的,不像句类检验那样,通常需要远距离操作。所谓前后向处理是语言学的基本常识,这一提法本身并无新意。但HNC为这一处理的实施提供了新的“工具”,这就是HNC符号本身所体现的概念关联性(包括同行性)。

上面只针对语词的概念类别特征作了局部处理的共性说明,实际处理时当然还需要利用语词的个性特征。例如“领导”一词,如果前面紧跟特定人名,则应先作动词处理。但应注意,汉语的“特定人名”可能出现歧义,紧跟的约束并非绝对保险。例如“张全式领导”这五个字就有歧义,这种歧义只能靠上下文的基本语境信息来解决。

本节命名为体词多义模糊难点,但从模糊表现的上述具体说明可以看到,这里的“义”是广义的,不只是通常意义下的语义semantics,也包括通常的词性兼类现象,而汉语的词性兼类实质上是词的语用问题。