一、句类分析难点3

1.3 浅层隐知识揭示难点(3号难点,标记:m.n*)

从本节开始,我将回到“52个论题”的初期写作方式,因为不能不考虑综合疲劳症复发的潜在威胁。

浅层隐知识揭示包括一般性缺省和指代模糊的消解,这个问题在《专著》的p75-p76已有详细说明,本节是对该说明的另一种陈述方式。那里把这一隐知识的揭示划定为理解处理的中期目标,现在是进入中期目标的时候了。缺省和指代问题一直受到语言学的特殊关注,有大量文献,建议理论组安排专人就这个子课题作一次文献调研,这一建议也适用于深层隐知识的背景知识。

缺省有两种基本类型,即语义块整体缺省和语义块要素缺省,这是定义。这个定义十分简明却有点玄奥。判定缺省的前提是必须预先知道应该有什么,没有这一预期知识就无从判定缺省。句类表示式提供了一个句子必须有什么的前提,因此,它是语义块整体缺省判断的依据。同理,语义块构成表示式提供了语义块要素必须有什么的前提,因此它是语义块要素缺省判断的依据。那么是否可以说,在句类表示式发现之前,缺省判断是一个不小的难点,而在句类表示式发现之后它已不成其为难点?问题当然不会这么简单,正如引言中所说,各项难点是相互制约的,缺省难点受到1号难点的制约。如果一个句子不存在1号难点,其语义块整体缺省的难点确实也就相应消失,但如果存在,则又当别论了。

语义块整体缺省实际上是指主块的缺省,因为辅块是可有可无的,不能采用缺省的概念,因此,“语义块整体缺省”可简称主块缺省。同理,语义块说明部分是可有可无的,也不能采用缺省的概念,因此只能是语义块要素缺省。但必须申明,这一论断不能教条式地应用于句蜕块,特别是其中的包装句蜕块。

汉语最常见的主块缺省是E块的jD、S缺省和!31格式的广义对象语义块缺省。对前者,特意设置了4.5个不含E块的句类表示式予以表述。对后者,要求HNC词语知识库给出!32格式的缺省信息,当这一信息不存在而出现缺省时,就默认!31缺省。这里应强调指出,HNC对默认规则的使用应不同于一般系统,因为它有预期检验的强大支持,因此,许多情况下,默认只不过是检验过程的一种优先排队,对主块缺省的默认,应采取这一策略。

语义块要素缺省同样有E要素缺省与JK要素缺省之分。这里需要澄清一下过去在这方面的“不拘小节”的失误。要素和核心这两个概念(命名)是有区别的,核心是要素的不可缺少部分,要素可以是核心的说明部分,这是我心目中的区别,可是在具体表述时过去并没有严格把关,混乱是难免的。就E块来说,其核心的定义如本文的1.1节所述,要素则可以包括QE,但不包括QEu。就广义对象语义块来说,核心就是语义块构成表示式中的显指部分,而要素则包括语义块构成表示式中的隐指部分。在句类表示式中,隐指部分用一个附加表示式来表达,例如:

基本作用句(的) B=XB+YB+YC

关系句(的) RBm=RBmB+RBmC

相互比较判断句和简明判断句(的) jDBC=DB1DB2+DC;…

核心缺省的辨认属于浅层隐知识揭示,但要素缺省的辨认则应纳入深层隐知识揭示。在HNC词语知识库的@S栏目中,对广义对象语义块的要素加了%标记的,表示它不可缺省,没有这个标记的都可以缺省。广义对象语义块的要素缺省是一种司空见惯的语言现象,通常可以置之不理。

指代也有两种基本类型,一是对HNC所定义的具体概念的指代,二是对事物属性的指代,也可以说是对HNC所定义的抽象概念的指代。指代的这一特性使它适合于用挂靠的方式进行表达,第一类指代用p w与400m (m=0~7) 挂靠的方式表示,第二类指代用l9与基元、基本、综合类概念挂靠的方式表示。这两类指代大体上相应于传统语言学的人称代词和指示代词。

指代概念是语义块感知的重要亮点之一,《专著》p228说:

人称代词和指示代词有三大特点:

1.在与其他概念组合时,它们一定充当语义块(不是短语)的头。它们前面的“的”也不改变这一规律,只不过这时它是句蜕块中的子块。

2.它们都可分别充当自足性语义块。

3.当两者同时出现时,人称代词必须在指示代词之前,而且失去了自足性特征。如果表现出伪自足(见下文),则l9为语气词f50。

这是三项很特殊的语法知识。为了激活这一类的特殊联想,HNC统一采用了概念类别符号与层次网络符号不一致的表示方式,这个不一致代表概念的多元性表现或综合性表现,多元性表现比较简单,综合性表现比较复杂,有时需要激活一类局部规则去取得有关知识。这一类局部规则通过类别符号去检索。

类别符号l9产生的激活过程是:

……

这是一段未充分展开因而容易为读者所疏忽的重要论述,它涉及两个根本性问题,一是如何形成HNC的语法知识,二是如何利用这一知识。前者的要点是:从一般句类分析的三部曲和汉语句类分析特殊需要的两支撑-K调度与单音词处理-的角度去表述语法知识。引文概括的人称代词和指示代词的3项语法知识,是从语义块感知和语义块构成的角度观察到的,从语义块感知才会提出块的头尾信息问题(第一特点),从语义块构成才会提出自足性问题(第二特点),至于人称代词和指示代词的排序问题(第三特点)是第一特点必然引发的派生问题(两个老大碰到一起,谁当老大?)。后者的要点是:语法知识是“一类特殊联想”,但引文并未对“特殊”二字加以说明,特殊总是相对于一般而言的,笔者心目中的一般联想是“句类代码+HNC映射符号”和由两者统帅的其他HNC知识,而引文指出的人称代词和指示代词的三大特点,属于这一知识体系之外的知识,因而是特殊联想了。特殊联想需要采用特殊方式加以激活,引文建议采用“概念类别符号与层次网络符号不一致的表示方式”。引文接着说:“这个不一致代表概念的多元性表现或综合性表现”。这句话里的“概念”是“词语内涵”的替代,这一替代在《专著》里普遍采用,但用在这句话里未免太不拘小节了,不过紧接的下文“综合性表现…需要激活一类局部规则去取得有关知识…这一类局部规则通过类别符号去检索”总算有所弥补。最后,还应该补充一点,在《专著》中凡涉及语义块构成的论述都没有把u类概念考虑在内,例如,特征语义块一般表示式中就未包含QEu、Eu、EQu、EHu等等,这里引文中所说的“头”也是如此,lg9类概念之前当然还可以加上修饰词,这是不言而喻的。

“概念类别符号与层次网络符号不一致的表示方式”属于概念类别划分的工程需要(见《专著》p264),与之相联系的局部规则也就是HNC语法知识,预定放在小专家知识库里,用于句类分析各环节的特殊处理,特别是语义块感知和句类假设的关键性排除处理。《专著》p265说:

这里的工程需要是指软件的需要,具体说,是指理解处理过程中某些特定环节的需要,例如,E假设,E排除,E排队,JK或fK感知,局部处理等。考虑这些特定环节的需要,在概念类别栏目中给出简明的表示,是一项意义重大的举措。

上面的两段论述表明,浅层隐知识的一个重要方面是HNC语法知识,它的揭示需要通过词语概念类别符号的“不一致表现”去激活相应的局部规则,所谓“不一致表现”,是指两种知识表示方式里的五元组表示或概念类别基元表示的不同。指代模糊的消解是这一隐知识揭示过程的典型代表,显然,这里所说的浅层隐知识不只是通常意义下的所指之“隐”,还包括其他语法功能的“隐”,例如使后接动词名词化(以符号qv$g标记)等。corc4-3标注的3号难点大部分属于这种情况,如2.4* 2.7* 3.2*等。

人称代词和指示代词的HNC映射符号的主体和概念类别符号分别是:

HNC符号 概念类别符号
人称代词 p400m m=0~7 pl9
指示代词 l9yu OR lj9yu lug9 OR lg9

指示代词的层次符号变量y代表所指的类型(如特指、泛指、通指等),变量u代表挂靠层的层次符号,如“这种”的HNC映射符号和概念类别符号分别是

lj9152+qv$g+g4005,lug9

其“不一致表现”是五元组的有无差异,而“我你他”等人称代词的“不一致表现”则是概念类别基元的不同。

浅层隐知识揭示的第三方面是冗余模糊的消解。“冗缺指代”模糊中的冗余通常是指口语中大量存在的重复和不含语音信息的习惯发声,但这里所说的冗余模糊则特指广义对象语义块的多余现象,显然,这又是HNC语法现象,因为只有从句类表示式才能观察到这一现象。此现象的具体表现有广义对象语义块分离和两可块的出现两种基本类型。这一隐知识揭示,当前的理解处理核心软件已有十分良好的表现。

上面的文字,希望有助于说明从HNC的视野确实能观察到一些新的语言现象,或者对原已观察到的语言现象给出新的解释。笔者深感欣慰的看到,今年有三位语言学硕士毕业生都在这方面作出了优秀的成绩。我们殷切希望,广大的汉语语言学工作者能从传统的轨道上扩大活动领域,结合汉语理解处理的需要,参照HNC的思路,开拓现代汉语语法语义研究的新局面。所谓HNC思路,归根结底就是一句话:建立语言空间与概念空间相互映射的桥梁。世界上的每一种自然语言,就有相应的一种语言空间,这就是说,人类的语言空间有数千种之多,但这些语言空间所对应的概念空间只有一个。HNC用三个超级语义网络和四个附加语义网络来表述概念空间的语义基元,用E、A、B、C来表述主语义块的构成基元,用基本句类表示式来表述语句的整体结构基元,用X、P、T、Y、R、S、D来表述特征语义块E的核心基元,用Ms、In、Wy、Re、Cn、Pr、Rt来表示辅语义块的基本类型,用RtB、RtC、ReB、ReC来表示两可语义块的基本类型,从而初步形成一个与自然语言空间相对应的概念空间的符号表述体系。这个符号体系适合于计算机的操作,但不适合于人类的直接使用,因为它只有形而没有音。设计这一符号体系的目标完全不同于世界语,也不同于中间语言,而是试图设计一个满足自然语言理解处理基本需要的知识表示体系。我多次说过,这个知识表示体系的完善不是一代人的努力可以完成的,但终究已经奠定了比较坚实的基础。这个知识表示体系可以理解为一种新的观察工具,也许可以把它比做语言空间的望远镜和显微镜吧。用它去观察语言现象,会看到许多新的景象。例如:漫无边际的句法树库,从HNC的知识表示体系看来,已经是一项没有意义的探索或追求,因为基本、混合和复合句类表示式的发现已经超越了句法树库的目标;所谓汉语述语动词辨认的困难对文字文本实际上已不复存在;汉语分词“瓶颈”之说实际上是一个人为的假象;令人畏惧的各种歧义现象多数情况是句类检验过程不难解决的常规处理。上列问题只是理解处理初级阶段面临的难点,大体上已经解决了。当前的目标是向着理解处理的中级阶段前进,广义的隐知识揭示(包括语境生成)是这一阶段的重点之一。这些提纲挈领式的论断,对于那些不理解HNC理论的读者来说,无异于雪上加霜。但对于已经理解HNC的读者,应该能够心领神会并产生奋发之感。

本节引述的《专著》中所谓人称代词和指示代词三大特点之说,如果能起到一点抛砖引玉的作用,则笔者万分荣幸。不过,这里应该说明,这块“砖”很可能是不合格产品,因为这只是笔者的一种直觉(低级演绎),并未作语料验证。不过,这种情况在《专著》里是极少数,绝大部分论断是经过语料验证的。如果有人利用这种个别情况竟然喊出“打假”的口号,那就不仅是无知,而是别有用心了。最后还应该指出,我们更重视验证方法与演绎方法的结合,只有这种结合才能达到高层次的求知探索。大规模真实语料统计方式只适合于一些特定的应用,如各种频度现象的统计、新词搜集、反映表层语言现象的具体统计模型的验证(包括模型参数的确定)和应用等,而深层语言现象不是一个统计问题,不能对大规模真实语料的统计寄予过高的期望。