2.1        HNC理论与句法语义理论的比较

 

句法语义理论可以概括大多数重要的自然语言理论,它们已被广泛地应用于机器翻译系统中[1]。下面我们对HNC理论和句法语义理论作一个简单的比较,以期更好地说明和理解HNC理论及其对机器翻译的重要性。

 

句法语义理论使用句法和语义两套概念描述和分析语句。从分析语句的角度看,句法和语义范畴没有本质的差别,它们都是以语言成分的概念含义为基础,描述组成语句的符号串中符号间的搭配组合关系,其差别仅在于抽象概括程度的不同,句法范畴的抽象程度高于语义范畴[21]

应该指出的是,句法语义理论中的句法范畴和语义范畴,并不是统一规划设计的。通常语言学家以他们的语感为基础,设计一套句法范畴,描述语句的语言成分线性序列中成分间的组合关系,强调语句的内部结构。对于语句含义的描述,通常使用通过对语言成分的细分类而形成的语义范畴。可以说,从分析语句的角度讲,句法是主干,语义范畴是句法范畴的补充[21]

对句法语义理论的思路,我们这里有两点疑问。第一,既然句法和语义范畴没有本质差别,它们具有共同的基础和目标,可以说,它们是一个整体,那么,在不考虑语义范畴的情况下描述句法范畴,就意味着这些句法类范畴的刻画和描述不依赖于语义类范畴,而这一点是需要非常仔细的考察。换句话讲,既然句法类和语义类范畴是一个整体,它们合起来才能描述和分析语句,那么,是否能够从分析语句的全体范畴中首先分离出不依赖其他部分的一部分[1],以及如何从整体中区分出来、并且定义和刻画句法类范畴[2],是一个需要研究的问题。

第二,从现有的句法范畴的功能看,句法范畴主要用于描述语句的内部结构,通常是语言学家以自己的语感为基础而设计的,而语义范畴主要用于描述组成语句的概念之间的意义联系。那么,是否可以脱离语句中概念之间的意义联系而又能够比较好地描述语句的内部结构呢?

 

既然句法和语义类范畴具有共同的基础和目标,构成一个整体,那么,通过考察它们的共同基础,在共同目标的指导下,充分考虑它们之间的各种关系,把它们作为一个整体进行研究,是最理想的。HNC理论就是以这个理想为目标而发展出来的语言学理论。

 

HNC理论用于描述语句的范畴是基于一个精心设计的概念体系,即概念层次网络,它可以看成是句法和语义类范畴的共同基础。HNC理论使用句类、作为句类的函数的语义块、语句格式以及句蜕、块扩等范畴描述语句。这些范畴的提出都是以语句所包含的概念之间的内在联系为基础,以最大限度地描述和分析语句本身所包含的信息、最大限度地消除语句中的模糊为目标,它们既描述语句的句法,又描述语句的语义,都是结构和意义的结合体。这比较符合语言的实际,因为,在自然语言中,任何形式和结构都是为了表达一定的意义,而意义都要通过一定的形式和结构表现出来,脱离意义而单独考察结构,或者脱离结构而考察意义,都不太合适,只有把两者统一在一个基础上,把它们融合在一起进行考察,才可以得到比较符合实际的结果[3]

从传统的语言学角度看,HNC理论具有浓厚的语义学色彩,因为它是以概念以及概念之间的联系为基础,而这些属于传统语言学中语义学研究的对象。然而,实际上,HNC理论使用一套概念,既很好地描述了通常用语义范畴描述的对象,即语言成分所对应的概念之间的意义联系,也很好地描述了通常的句法概念所描述的现象,即语言成分线性序列中语言成分的组合搭配关系。HNC理论使用一套概念,描述了句法语义理论使用两套概念所描述的现象,更重要的是,HNC理论还同时描述了这两类语言学范畴所描述的现象之间的联系。HNC理论把语句的结构和意义有机地融合起来,按照语句结构和意义的本来面目描述它们。

HNC理论以语义为基础,对语句的表层和深层结构统一考虑,构造出一套协调一致的概念,试图尽可能多地描述语句本身所含有的信息。HNC理论对句法范畴和知识的描述,是在一个包含语义的更大的框架中进行的。这样,它对句法范畴的描述,不但能够“知其然”,还能够“知其所以然”,因为句法范畴描述的语句结构,其目的都是为了表达一定的语义。

 

短语结构理论是汉语语句分析的一个重要理论,它是句法语义理论的典型代表,已被许多人研究,并且有许多很好的理论结果和应用成果。下面我们分别使用短语结构理论和HNC理论,对几个例句进行分析,具体地说明和比较这两个理论的特点。

我们分析三个简单的语句,它们是,(a)“张三把李四打了”, (b)“张三打了李四”,(c)“李四被张三打了”。这三个语句表达同一个意思,即它们的深层含义是相同的,但表达的方式,即语句的表层结构,各不相同。

我们先利用短语结构理论对它们进行分析。这分为两步,第一步是利用短语结构句法分析语句的句法结构,分析结果如图3所示。

 

(a) 张三 李四     (b) 张三 李四  (c) 李四 张三

    n    p   n  v  u          n   v  u   n         n   p  n   v  u

    np    pp     vp           np   vp   np         np   pp     vp

    np        vp              np      vp           np       vp

     dj                        dj                    dj

 

 

3  对三个语句的短语结构句法分析

 

短语结构句法利用层次分析法描述三个例句的句法结构,三个语句都分析为单句型短语dj,而且一级结构都是np+vp。但二级结构有了差别,(a)(c)vp是状中型vp短语pp+vp(b)vp是述宾型vp短语vp+np。在三级结构上,例句(a)(c)的结构也一样。这就是说,语句(a)(c)的短语句法结构是完全相同的。

短语结构理论分析语句的第二步,是利用配价理论从语义的角度分析语句。从配价理论看,这三个语句是一样的,“打”是二价动作型动词,“张三”是“打”的施事,“李四”是“打”的受事。

通常配价理论分析语句的语义时,都是以词为单元划分语义角色,即在短语句法分析结果的第三层。也有人试图以短语为单元划分语义角色,即在句法分析结果的短语层讨论语义角色,但由于短语只是比较粗线条地根据词性组合而形成的,没有仔细考虑短语在语句中的语义,因此给短语赋予语义角色是比较困难的。

 

从上面的分析可以看出,短语结构理论对语句进行分析,所得到的短语句法结构与利用配价理论得到的语义角色基本上没有多少联系,这样的结果反映不出结构和意义的密切联系。

对于短语结构理论的分析结果,有下面一些问题。第一,对于语义相同的三个语句,它们的句法结构为什么不同?结构如何反映出语义?第二,直观地看,特别是从把三个例句翻译成英语的角度看[4](a)(b)的相似性比(a)(c)的相似性更大一些。然而,图3的分析结果表明,(a)(c)的句法结构更接近,而三个例句的配价意义下的语义是相同的。因此,利用短语结构理论的分析结果把这三个例句翻译为英语,其翻译结果就不会很好。这就是短语句法理论把语句的句法分析和语义分析分离起来,不考虑它们之间的联系,所造成的不好结果。第三,实际上,(a)(c)的句法结构完全相同,但两个语句在相同位置上的成分的语义却很不相同。短语句法结构无法反映这些语义的不同,更无法反映介词“把”和“被”在句子中的作用。

可以看出,短语结构理论没有对这三个例句在结构和语义上的相同和差别之处给出一个简洁、清晰的描述,其结构描述是粗线条的,其语义描述很不充分,更没有描述结构和意义之间的关系。这是由于短语结构理论首先考虑使用最一般的范畴分析语句的结构,然后才考虑借用配价理论进一步描述语义,把语义描述看成是句法结构描述的补充,没有把结构与意义统一起来考察语句,没有从语句理解的角度对语句进行分析。

 

    HNC理论对上述三个例句的分析结果如图4所示。

 

 

(a) 张三 李四       (b) 张三   李四  (c) 李四 张三

    p   l02  p   v00  hv       p  v00  hv   p      p   l01   p  v00 hv

    A     B        X         A     X     B       B     A      X

           !11XJ                  !0XJ                   !12XJ

 

 

                4  利用HNC理论对三个语句进行句类分析的结果

 

从图4可以看出,HNC理论对语句的分析结果也有三个层次,第一层是语句的句类代码和格式代码,句类代码基本上是语句的一种语义分类,代表语句的语义信息,同时它又通过句类表示式确定了语句的主语义块个数和类型,前者属于语句结构的信息,而后者属于语义信息;语句格式代码表示语句的主语义块次序,属于语句的结构信息。这样,句类分析所得到带格式信息的句类代码包含了语句的结构和意义两方面的信息。

HNC分析结果的第二层是语句的语义块。语义块既是语句的结构单元,又是语句的意义单元,它是结构和意义的统一体。在分析语句结构方面,短语结构理论中的短语与HNC理论中语义块的作用大致相当,都是语句的直接构成成分。然而,短语不能算作语句的语义单元。因为,短语的类别虽然也考虑了一定的语义因素,但短语的类别划分十分粗略,短语的划分主要根据词性,与语句的语义联系不大。而语句的语义块分类本身主要是考虑语义,语义块是句类代码的函数,句类代码是语句语义的集中代表,所以,语义块具有具体而鲜明的语义含义。另外,语义块也是一个结构体,它在语句的分层结构中是一个重要的层次。

HNC分析结果的第三层是词语的HNC符号,HNC符号描述词语的含义,同时也描述词语的搭配关系。HNC符号在句类知识中被用于说明语义块的构成,HNC符号还用在同行优先和广义同行优先等规则中,用于说明词语间的搭配情况。

 

因此,从图4可以看出,HNC分析的结果,采用一套符号,表示出了语句的结构和语义信息,而且还反映出了两者的密切关系,反映出语句的本来面目。分析结果既表示出了语句中语言成分的组合关系,类似于图3给出的句法分析结果,同时也包含了语义范畴描述的关系,即,X语义块的要素“打”对应着作用型的v概念,A语义块的要素“张三”是“打”的作用者,B语义块的要素“李四”是“打”的作用对象。更重要的是,HNC语句表示式用一套概念描述语义和结构,把它们有机地结合起来。这里的关键是使用语义块AXB描述语句,语义块把结构和语义融合了起来,使结构成分负载了语义,使语义成分落实到语句结构上。

HNC的分析结果显示出这三个语句的联系和区别。它们都是基本作用句,由AXB三个语义块组成。从结构上讲,语义块是语句的下一级结构单位,三个例句可分别表示为A+B+XA+X+BB+A+X,这由各个语句的语句格式表示了出来。值得指出的是,每个语义块也是一个结构体,通常具有语义块核心、修饰和语义块标记三部分。从语义上讲,三个语义块分别表示作用者、作用的动作和作用对象。三个例句的不同结构反映了语义块在语句中先后次序不同。根据HNC理论,语义块比较自由地移动是现代汉语广义作用句的一个突出特点,语言逻辑概念对应的词“把”和“被”分别是基本作用句中语义块BA移动位置的典型标志,这透彻地描述了两个词语在语句的作用和地位。可以看出,HNC理论对这三个语句在结构和意义上的区别和联系给出了清晰的描述。

 

HNC理论对语句的分析,结合了语句中表层的形式和深层的意义,由此形成了HNC理论分析语句的技术----句类分析。它既利用语句结构对意义表达的支持,也利用语句意义对结构的约束限制,采用独特的“中间切入,先上后下”的分析策略。

HNC理论对语句的分析,从语句所要表达的信息(即表示对象和对象的表现)出发,把语句看成为一个结构和意义的结合体,使用一套概念,把语句的结构和意义融合在一起,对语句进行分析。HNC理论对语句的分析非常有利于机器翻译。翻译的目的就是把源语句表达的信息用目标语言表达出来,这些信息既包含在语句深层的含义中,也包含在语句的表层结构中。因此,分析源语句的目的就是要提取它所包含的信息,包括语句的结构和语义,而HNC理论的分析结果正是包含了语句的这些信息。



[1] 对于那些面向人理解自然语言而创立的语言学理论,从整体中区分出句法类范畴也许是可以的,因为人在理解这些概念范畴,以及在使用这些范畴分析语句时,通常自觉或不自觉地使用一些属于语义类范畴的知识或其他知识,因此,这些范畴对于人分析语句是有帮助的。但是,对于面向计算机理解自然语言的语言学理论,如果事先没有让计算机具有语义类范畴的知识,而让它仅仅利用句法类范畴分析语句,就可能很困难。并且,如何在计算机中表示语义类范畴的知识,是否和那些面向人理解自然语言的语义范畴相同,也是需要认真考虑的问题。

[2] 有的研究者使用筛子模型解释句法语义理论,即,把描述和分析语句的概念范畴放在一个筛子中筛一筛,留在筛子中的是句法类范畴,可以首先定义和描述,从筛子中落下去的是语义类范畴。这是一个很形象和贴切的说法。但是,如果放在筛子中的所有范畴是粘联在一起的,那么,这时使用筛子就不能把这些范畴分开了。

[3] 从方法论意义上讲,句法语义理论有一定的道理。首先从语句中提取那些比较容易把握和研究的概念,作为句法类范畴。对于句法类范畴不能解释的现象,再适当引入一些比较复杂而不容易把握的语义概念,作为句法类范畴的补充。这符合一般科学研究中分而治之的原则,即,对一个困难的问题,把它分为几部分,对这些部分分别研究,先研究简单的部分,再研究复杂的。分而治之是科学研究中处理难题的一个重要原则,但对于一个困难问题,能否使用它得到比较好的结果,这是由这个问题本身的特性决定的。

[4] 通常,(a)(b)都翻译为主动句,Zhang has hit Li(c)翻译为被动句:Li has been hit by Zhang