一、句类分析难点17

1.17 EK复合构成难点(17号难点,标记:w%)

从本节起到本章的最后一节,面对的是同一个问题,就是如何对黄侃先生提出的“一字之义果明,则数字之义亦必无不明”这一命题里的一个子命题(该子命题的具体内容见下文)实行计算机操作的知识准备。黄侃先生在这一命题里所概括的两“明”,下面分别简称为果明与必明,两“明”涉及“明”的前提条件及其推断依据,如下表(知识矩阵)所示:

问题         知识

果明 前提条件 推断依据

必明 前提条件 推断依据

这就是说,果明与必明所要求的前提条件及推断依据是不同的,从而形成一个如上表所示的知识矩阵。

什么是“一字之义果明”的前提条件?是该字所有可能的HNC映射符号的完备集合,即字义的完备集合。什么是“一字之义果明”的推断依据?是该字语义集合与邻近或预期位置的另一语义集合的概念关联性。

什么是“数字之义必明”的前提条件?是“数字之义”所有可能的语义组合的完备集合:如果“数字之义”形成语句,则其完备集合是所有可能的句类代码,而多句类代码可能形成语言分析20项难点的头号难点;如果“数字之义”形成语义块,则其完备集合是各句类表示式所对应的语义块表示式;如果“数字之义”形成短语(即语义块的一部分FK,今后借用“短语”这个现成的术语表示FK),则其完备集合是HNC所定义的10种语义组合结构可能形成的复合语义。由此可见,必明的前提条件有3种类型,语句型、语义块型和短语型。

什么是“数字之义必明”的推断依据?那就是HNC知识表示体系所给出的预期知识。按上述“数字之义”的类型,对语句是句类检验的预期知识,对语义块是语义块构成分析的预期知识,对短语是短语组合结构检验的预期知识。所谓短语组合结构,实质上就是HNC所定义的9种语义组合结构,但是,不能把这些语义组合结构冠以短语的修饰词,因为,这些语义组合结构也可以体现在单词身上,特别是西语的word。

从上面的说明可知,本文实质上是对黄侃的果明-必明论断的阐释,本节以前和后面的第二章是对语句、语义块果明-必明论断之阐释,本节起到本章的最后一节是对复合词果明-必明论断之阐释。

上面对黄侃论断的阐释当然过于简略,第四章可能作一些补充。

下面回到本节的主题-EK复合构成难点,这个标题有点名不副实,因为,1.1节讨论过的动词连见现象与这一难点有关,而动静搭配E+EH和高低动静搭配EQ+E+EH也存在这一难点。本节所谈,仅限于这一难点的两个特殊方面,一是汉语高度发达的汉字语义组合化现象在EK复合构成中的表现,二是hv类汉字的语言功用。后者当然也可以视为前者的子类,但这个子类过于特殊,未进入E块构成的一般表示式,独立出来比较合适。

西语词义的组合化在形式上首先依靠形态变化和附加前后缀的方式,这种方式可实现的组合内容非常有限,形态和后缀体现时态、数、性、所有等概念的语义表达,虽然都不够完整,但终究形成了一个语义符号子体系。前缀体现反、非、预、内、下、之间....等概念的语义表达,形成另一个语义符号子体系。西语词义组合化的第二种方式是在动词后附加介词或介词短语,以扩展或转化动词的语义,这些介词也形成一个语义符号子体系,并将命名为hv符号体系。前两个语义符号子体系的说法估计不难得到认同,但第三个子体系的说法就不同了,不过,这类争论是没有实质意义的,因此,我宁可说这是HNC的一种工程定义。汉语的hv符号体系非常发达,并表现为hvv特征,在汉语音节知识表示中运用了这一符号。对这一符号体系的研究最好是对汉语、屈折语、黏着语同步进行,热汗姑丽具备从事此项研究的最好条件,我希望她珍惜这一天然优势。

汉语词义组合化没有西语的纯粹形态手段,一律采用汉字直接组合的方式,在直接组合时,一些汉字的作用等同于西语的形态变化、前后缀或附加介词。这就是说,西语的上述三种语义符号子体系,汉语都统一用一些汉字来表达。例如,英语的形态符号ed大体相应于汉语的“了过”,ing大体相应于汉字“着在正”。

现代汉语语法学家注意到了汉语与西语在词义组合化方面存在重大区别,提出过复合式合成词和附加式合成词的说法,并将前者区分为联合、偏正、动宾、主谓、后补5种结构,对后者区分为前缀与后缀两类。对组合结构的上述分类不能说没有一定的意义,但对于帮助计算机理解词的语义组合结构这一目标来说,显然还存在很大的差距,HNC的语义组合结构符号体系(见《专著》p18~19,p39~41)是为了弥补这一差距而设计的。这里需要补充的是,“语法”符号h q实质上也是两个特殊组合结构符号,我们希望用这两个符号统一表达各种语言的形态变化和前后缀现象,这里的“缀”,不只是语词的缀,也包括短语、语义块和句子的缀。例如:现代汉语的“的”,古汉语的“也乎哉兮”可充当句子的后缀,用hJ表示;现代汉语的“的话、来说”充当短语的后缀,用hPr表示;古汉语的“者”充当语义块的后缀,用hK表示;而“矣焉”可充当语义块或句子的后缀,用(hPr;hJ)表示;现代汉语助词“了着过到成”等用hv表示;英语的后缀ing ed等用vh表示;s es则用(vh+g4003-0;Nh+j41-)表示;前缀类此,不另举。

在语义组合结构的运用方面,汉语的伟大创造在于利用汉字的天然组合性形成大量复合词,使复合概念的反映射语词之复合语义结构呈现出组合形态,一目了然或一听了然,因而是显式的。而西语除了上述有限内容外,对一般复合概念基本采用另造新词的方式,因而复合结构是隐藏的。所谓形态,实质就是复合结构的一种表示,从这个意义上说,我反而认为,汉语不仅不是无形态语言,而且是形态更为发达的语言。这个观点我曾在Paper1的初稿里曾有所阐述,但在定稿时删去了,以免引起无谓的争论。

其实这个观点本身并不重要,重要的是需要为计算机另行设计一套计算机容易理解的符号体系,引导它理解复合概念的意义。把复合概念的反映射语词分解成概念基元的复合构成,即HNC符号体系,是实施这一引导的基本举措。笔者对‘语言分析=命题分析’论断之所以的不敢苟同,基本原因之一是由于这一论断实际上否定了另行设计概念基元及其组合结构符号体系的必要性。

以汉语的“说、讲、谈”为例,对它们的意义如何表示才能让计算机容易理解?这显然不是一个数理逻辑问题,同时也不是传统词典说明方式能够解决的问题。《现代汉语词典》对三字本义的解释如下:

说-用话来表达意思

讲-说,谈。

谈-说话或讨论

话-说出来的能够表达思想的声音,或者把这种声音记录下来的文字。

说话-用语言表达意思

这些解释对人是相当确切的,但对计算机不然。对“说”用“话”来解释,而对“话”又用“说”(说出来的)来解释,还涉及“能够、思想、声音、记录、文字”等诸多概念。能否采用另外一种符号体系进行表达以方便计算机的理解?这就是HNC理论第一理论模式试图回答的问题。

与上列《现汉》解释相对应的HNC映射符号如下:

说-v65232

讲-v9232$v810

谈-v65232;v249a

话-r65232

说话-vr65232

这些映射符号里共同的核心层次符号是232,表示"说讲谈"的共同概念基元-输出信息,这是三者的共性。对它们的个性,用本体层65和9,组合结构符号$来表达:"谈"另有信息交流的意义;"讲"的效应特征-使对方理解-更为突出;"说"与"话"的层次符号完全相同,差异仅在于五元组符号-"说"是"话"之源,"话"是"说"之果。这样的符号表示方式,就为计算机把握这些语词之间概念关联性,提供了一个比自然语言更合适的基础。

当然,西语也有复合词,不过与汉语相比,那真是小巫见大巫了。现代汉语复合词的大量涌现,极大地方便了汉语的使用者,但未必方便计算机的中文信息处理。问题在于如何利用汉语的这一特性,利用得好是优势,利用不好就成了难点。所谓局部处理,对汉语来说,除了1.15节给出的清单外,就是复合词的处理问题,就是把汉语的这一优势用好的问题。我们把这个问题分为4小类,分别在本节和随后的3节里阐述。

复合词是概念集分的基本单位,但要区分复合的虚实或真假。实复合词一定是复合概念,与多个概念基元相对应,如“击溃、击毙,阻击,截击”;虚复合词不一定是复合概念,如“攻击,打击,深浅,状况”。词之复合与概念之复合是两个完全不同的概念,复合词可以是简单概念即概念基元,非复合词(例如汉字)可以是、而且多数是复合概念。理解过程关注的是概念的复合,而不是词的复合,明确这一点非常重要,是用好汉语优势的基础,黄侃命题关注的就是概念的复合,HNC知识表示项里的组合结构代码也是指概念的复合,而不论该词本身的形式是否复合,因此,字也应该有这一表示项。读者会问,在词的映射符号里,组合结构信息不是一清二楚么?为什么要重复表示呢?这个问题我说过多次了,所以就留给读者作思考题吧。

上面,引入了“集分”这个新术语,意思是“集与分的对立统一”,相当于黄侃先生所说“积字成句”里的“积”,其精确映射符号是vr390,上段文字里的“复合”最好用“集分”来替换。当然这里只是说一说这个意思,并非真的要读者接受这个术语,入乡随俗是语言的第一规则。但心里应该明白:语句的理解过程是概念的集分过程-从语义块的集分到语义块内部构成的集分处理,并在集分过程中确定语句句类。而所谓17号难点,则专指EK内部构成的上述两种集分处理。

第一种集分处理,即EK的汉字集分处理,是汉语应该特别关注的语言现象之一,由这一语言现象形成的难点将记为17-1难点。下面以“打”字为例进行说明。

《现汉》对“打”字共计给出了26个义项,其中动词义项24,其义项之繁确实令人畏惧,17-1难点的表现十分突出。还应该指出的是,《现汉》所列举的义项并不全,下面给出“打”的两个待补义项和一个现有义项的未登录词:

打伤 打死 打痛 打昏 打碎 打乱

v008#v322 XJ

打前锋 打后卫

(v6501,l5,9733*m) XS*11

打紧逼 打联防

sv22 X20J !11 !22 X20S*11

前两个义项是待补义项,第三个义项是现有义项,《现汉》的举例有:打官腔、打马虎眼、打圆场、打掩护等。在例词下一行,给出了相应HNC映射符号和句类代码,对其中的X20J还给出了格式知识。如果对有关义项都按照上面的方式,用HNC符号体系予以表示,运用这些知识及其伴随的@S预期知识,加上远程语境知识的引导,应不难对"打"字进行有效的向后段接处理,从而完成该字的多义选一处理,即17-1难点的消解处理。这一处理过程也就是"一字之义果明,则数字之义亦必无不明"的具体操作过程。

我建议,把“打”字选作17-1难点的代表字之一,以它为中心形成比较完整的Ⅲ型语料,用于检验17-1难点处理软件的自明度。

汉语的17-1难点十分突出,读者会问,上面开出的简明“药方”就能够治疗这一顽症么?应该看到,这个“药方”貌似简明,实际上可以提供17-1难点治理所需的全部知识,奥妙在于@S的细节表示。例如对第一组未登录词的“打伤打死打痛打昏”应给出B=XB+YB XB:p;jw62;的预期知识;对“打碎打乱”应给出B=XB+YC% XB:p;pe. YC:r80;r82;r7123; B=XB XB:w.两项预期知识。这些知识可集中放在“打”的字知识库中,至于效应v322的具体内容则放在“伤死痛昏碎乱”的字知识库中。这样的知识表示安排,就是上面所说的对汉语优势的具体运用了。在上述知识表示方式中会遇到共性与个性表示的复杂问题,需要作出“各个击破”的灵活处置,例如义项sv22所对应的词语并不能都纳入上面给出的两个句类代码,《现汉》给出的例子“打比方”就属于例外。例外要作为个例单独处置,就是把这类词纳入词库,因而拥有独立的知识表示清单。

第二种集分处理,即hv处理,这一处理遇到的难点将记为17-2难点,似乎各种语言都存在这种难点。西语介词的语言功能之一是充当hv,把一些形式上“不及物”而实质上“及物”的所谓不及物动词变换成“及物”动词,如interest look等。对介词意义的这一诠释,估计传统语法学难以认同,但这无关紧要,重要的是v+hv的知识表示。这里只谈汉语,以“成”字为例进行说明,张艳红可参照这个说明对英语进行相应的研究。

建议“成”字的第一义项表示如下:

成hvv(v309,v30a1)

[v:(X;v232;v00#331;v232#v331.)=>XY02*311J]

[v:EΛ(E:Yg)=>EJ] [v:D=>D0J Λ^!0]

概念类别记为hvv,其v概念的映射符号记为(v309,v30a1),映射符号之后给出hv的3项知识表示,各项表示之间用 [ ] 号隔开。读者应注意到,hv的3项知识都与句类挂钩。第一项知识来于"成"之映射符号,表示该复合概念前接表示式中所列的作用型概念而构成E块时,一定形成混合句类XY02*311J。属于X的反映射字有"切磨剪煎碾包折...."等,属于v232的反映射字有"说写画描...."等,后两种概念的反映射字很少,主要是双字词,如"展现、打扮、表示、描写...."等。第二项知识表示"成"字前接广义效应概念Yg时,句类不变,如"长成、病成、瘦成、变成、锻炼成...."等。第三项知识表示"成"字前接判断概念时,一定形成!113D0J格式的判断句,例子如"当成、看成、想成、判成、理解成、规定成...."等。这里需要强调的是:凡属于X Y类概念的反映射词语,都要注意它的二重性,即初期命名的所谓(4 Y)及(5,X)特性。这一二重性十分重要,在语词知识库中必须加以表示,无论是字、双字词或word。

HNC所定义的hvv类概念是不是汉语的特殊语言现象?似乎值得研究,但不必匆忙作出结论。至于传统语言学是否认可hvv概念,那更不必关心了。需要关心的是那些得不到词典登录资格也没有必要取得这一资格的大量双字动词,像“切成、磨成、剪成....”之类,这类双字动词是黄侃先生所说的“积字”现象的形式之一,怎样才能让计算机自动辨认出这类“积字”,并且自动构成理解所必需的基本知识呢?hvv概念的引入就是为了实现这一自动辨认过程的激活,hvv本身就是一个明确的激活信息,而上面给出的符号表示和说明也许可以算作一块自动知识获取(自动得到句类代码)的引玉之砖吧。

近5年前,在初建汉语音节知识库的时候,hvv类概念划归活跃语素义类中的一个子类,当时就提出过对哪些hvv类概念的反映射字(一个清单)应建立小专家知识库的具体设想,在“小专家”里,hv的前搭配(字或词)可以不受限制地登录,从而形成一类长时记忆。现在,落实这一设想的时机似乎已经来到了,不可能在研究所的环境实施这类设想,但在公司环境里是可以实现的。

《现汉》对“成”字给出了11个义项,上面的映射符号综合了其中两项的一部分,即“变动+完成”,这是一个复合义项。“成”字单独充当动词(可另加hv)时,主要运用这一义项,充当hv时,一定继承该义项。在“成”的众多义项中,这是最重要、独立性最强的一个义项,其他义项有的不必单列,有的可以合并。

本节写法显得十分松散,但实际上是外松内紧,我是有意这样写的,无非是对老一套厌烦了,想换换花样,没有别的意思。