一、句类分析难点9

1.9 句蜕难点(9号难点,标记:J*5)

句类表示式中最关键、最费思考、最难把握的知识是:凡显含内容的广义对象语义块都具有块扩或句蜕特征。但实际情况似乎显得非常复杂,有些显含内容的JK既不块扩,也不句蜕,如物转移句的T2C;而有些不显含内容的JK却又经常出现句蜕,如关系句的RB1或RB2;绝大多数含内容JK似乎既可块扩,也可句蜕。这不仅是句蜕处理的难点,还似乎表明HNC语义块构成表示式中的内容符号C是一个虚无缥缈、没有实际意义的概念。

关于广义对象语义块必须引入对象和内容这两个特定概念的想法,在1992年的许多不眠之夜里,不知多少次从不同角度反复进行过思考和验证。这包括:句子基本语义构成不仅需要众所周知的对象及其表现(这相应于传统语言学的主语和谓语)的概念,还需要对象与表现可以融合在一起构成广义对象的概念;主谓宾定状补的传统内涵不仅需要进一步分类,而且需要进一步分解的概念;动词不仅需要本身特征的及物与不及物之分、配套特征的配价梯级的概念,更重要的是需要引入表征配套特征的块扩与句蜕(当时采用的是扩展与融合这两个术语)概念。我在paper2中对内容这个概念的复杂引入过程,作了详尽得近乎繁琐的叙述,却回避了对内容的扩展与融合(相当于后来的块扩与句蜕)存在重大区别这一重要问题的阐述,为什么?因为,在这3个不同角度的思考过程中,块扩与句蜕的区分最为艰难,两可的矛盾在当时依然存在。

在1995年开始的汉语Ⅰ型语料的标注过程中,对句蜕是现代汉语书面语常见语言现象(这本在预料之中)的亲身体验,对广义对象语义块内容基元概念C的醉人感受,加上“抓两头”的“职业”习惯,使我产生了对某些基本句类应赋予先验块扩特性、对另一些句类应赋予先验句蜕特性的想法。这两项特性是十分宝贵的基本句类知识。可是,这些知识竟然在HNC的大量文字论述中不见踪迹,为什么?

这里有许多令人遗憾的原因,但最根本的原因是家族遗传的灾难性浪漫。

HNC探索过程中值得留下记录的东西,过去(去年生病之前)我说过的比写下的多,写而未存的比存下的多,如果没有张全的细心,这一灾难性后果是不堪设想的。

块扩和句蜕是这一灾难的重灾区之一,本文将作必要的补救。

薛侃的硕士学位论文偏重于具体句蜕现象的概括分析,本节将着重阐述句蜕这一概念的理论方面。

句蜕的概念是对子句和“句子成分与词性对应”这两个经典概念的极为重要的发展。句蜕有4种基本类型,子句只是其中之一的原型句蜕;句子成分与词性对应的概念,只适用于简单构成的语义块,不适用于复杂构成的语义块。语义块的本质是复合的。主语、宾语、定语、状语中出现动词,谓语中出现名词,是语言的正常表现或现象。然而,这一语义块的正常本质现象长期以来却被“句子成分与词性对应”的经典概念掩盖了。

对HNC理论的误解之一就是认为句蜕和块扩的概念产生较晚,是在语义块和句类概念之后提出来的,这一误解来于不了解HNC理论的形成过程,让我们重温一下《专著》的有关论述。

我们从句子整体结构的角度引入了因果表现的概念,并将果表现纳入C语义块。果表现就意味着“C语义块可扩展为另一语句”,或简称C的语句扩展性。因为,所谓果表现,就是新的效应又会引发新的作用这一基本观念的具体体现。也就是说,语句表达时,将作用效应链再循环的功能交给C语义块来承担,而再循环的表达当然又需要一个语句。

除了单纯描述对象和表现的语义块之外,还有同时描述对象和表现的复合语义块。…这就是说,语言的表达对象及其表现可以融合在一个语义块里。应该把具有这种融合的表现与不具有这种融合性的表现区别开来,我们把前者叫座内容C,把后者叫做特征表现E。

两类对象,两类表现,表现与对象的融合性(注:即后来的句蜕),果表现的语句扩展性(注:即后来的块扩)。这四点,是形成E、A、B、C四种主语义块概念的理论依据。融合性意味着A、B、C实质上是广义对象语义块的构成基元。

《专著》p53

广义对象语义块(简记为JK)通常都具有内部结构,因此,JK也需要相应的表示式来表示这个内部结构(简称构成)。因此,需要引进JK构成基元的概念,从这一点开始,我就同菲尔墨先生分道扬镳了。本来我们就不在同一条道路上,他在追求对各种短语的语义命名,我在追求语句表示式。然而,我的语义块命名与菲尔墨的格命名是遥相呼应的。可是当我意识到JK的基元与句类相结合才是菲尔摩的格时,我豁然开朗,困扰菲尔摩先生的完备性问题对我已不复存在。菲尔摩先生的历史性工作可以划上句号了。

《专著》p188

但是,主辅语义块的区分只是一个起点,关键性的飞跃是在关于主语义块类型的思考中:对特征语义块E的类别基元和广义对象语义块JK的类别基元的发现,后者是前者的函数的发现,从而得到主语义块是句类函数的结论。这个结论标志着HNC理论对第二个理论模式,即语义块和语句物理表示式的探索已进到"蓦然回首"的境界。

《专著》p193

菲尔摩的“格”是不可分解的,他本人及其后继者似乎都没有想过语义角色也应有基元与复合之分,HNC对此作了深入的探讨,其中C角色基元的提出具有关键性,由此产生块扩和句蜕的重要思想。

《专著》p232

作为对HNC理论探索过程的要点描述,这4段文字是比较贴切的,虽然文字上很不通俗,又不够通畅,对于不熟悉HNC的读者肯定如同天书。我们常说:句类分析过程以语义块感知为切入点,以语义块构成分析为终点。那么,什么是HNC语句理论探索过程的切入点和终点?答案是语义块的复合构成和句类表示式。这就是上面4段文字以不同方式试图表达的同一内容。因此,不但不能说块扩与句蜕是HNC理论后来的发展,而且应该反其意而说之,HNC理论的探索过程正是以块扩与句蜕的概念为理论思考的切入点,不过当初叫做(内容基元的)扩展性与融合性而已。

在第一届HNC战略研讨会第二次会议上,我作了以“假设、透彻性与理性法官”为题的讲话,其中的假设之三采用了下面的公式表达形式:

实现初级自然语言理解的充分知识=

句类知识+语义块构成知识+语义块间预期知识

+语义块内同行知识

为了揭示这一公式的本质,不妨给出另一种形式的公式:

实现自然语言理解的必要充分知识=

语法知识+语义知识+语用知识+情景知识

+大规模真实语料的统计及范例知识

+常识+专业性知识

这第二个公式是假想的,但反映了当代主流计算语言学界的普遍共识。这两个公式的本质差异何在?后者是知其然的理性水平,前者是知其所以然的知性水平。表面上看,两者的前提有所不同,后者似乎比前者的认识更为全面。但是,问题的要害恰好在于:第一,后者更全面的前提恰好反映了它对计算机的自然语言理解处理缺乏必须从初级理解入手、逐步向中级和高级理解过渡的清醒认识。第二,后者对它所列举的各项知识还缺乏透彻的综合理解,还不明白,这些知识的大部分是不能独立直接使用的,还需要进行综合、抽象、提炼与转换,才能有效地为理解处理服务。那么,怎样进行这些知识的综合、抽象、提炼与转换?应该留有余地说,HNC提供了一种答案,那就是第一个公式所表述的知识形式。不应该排除存在更好的综合、抽象、提炼、转换方式的可能。但是,你必须朝这个方向努力。在‘论题21’中(此文未入《专著》)曾引用过伏契克先生的话“人们,我爱你们,你们要警惕啊”,就是针对这一历史性需要而发出的友好呼吁。

王宏强模糊然而敏感地抓住了HNC假设3的潜在意义,他第二天的发言表明了这一点。我希望今后用“第三公理”来替代假设3的提法,并祝愿它能变成一个专用术语。

遗憾的是,《专著》和未进入《专著》的文字都只对第三公理“厚”的方面进行了论述,而缺乏变“厚”为“薄”的画龙点睛之笔。这需要理解深度与写作功力两方面的交融,因此我缺乏对此进行弥补的基本条件之一,但这里仍试图采用一问一答的方式尝试一下。

※问:格语法、配价语法、中心语驱动语法、范畴语法和乔姆斯基的管辖约束理论都明确提出了从中心动词联想主语和宾语的思路,HNC的句类表示式不过是这一思路具体化的方式之一,它在思路方面究竟有什么发展?

答:你可以继续坚持说句类表示式只是上述思路的具体化,但你置上列引文于不顾的“坚持”清楚表明,你既没有综合考察全部基本句类表示式,也完全不了解句类知识的含义,所以,你的坚持是非常盲目的。你了解哪些基本句类必须依靠JKm~JKn之间的关联性进行句类检验,而不能依靠E~JKm的关联性么?你了解哪些句类JKm~JKn之间的对仗性知识是句类检验的关键么?你了解哪些句类具有先验块扩的特征,而先验块扩就表示该句类的语句在多数情况具有两个中心动词么?你了解哪些句类具有先验句蜕特征,而这些句类的语句经常出现格式转换和主辅语义块变换么?你了解句类检验存在要素方式与全局方式、充分性与必要性的根本区别么?最后是,你了解哪些句类的E与哪些JKm具有关键性的关联知识么?这些知识是语句理解处理的基本保障。但是,除了最后一项知识之外,上述语法理论对其他各项知识曾加以考虑么?其理论框架能够容纳么?在你对这些问题有所了解以后,欢迎你再来继续讨论。

我经常说,自然语言理解必须从语言空间升华到概念空间,上列知识就是升华的具体内容。不以这一升华为基础的理解处理思路或方案是永远不可能与大脑语言感知模式接近和接轨的。

第三公理中的第一项知识与1号难点及5、6、8、10、11、12号难点相联系,第二项知识与2号难点及7、9号难点相联系。这里“联系”的意思是:此类知识是处理这些难点的基本“武器”。

第二项知识的灵魂概念是句蜕。你作出了句类假设,该句类各广义对象语义块的类型是已知的,某一广义对象语义块是否先验句蜕或可能句蜕是已知的,因此,对哪些语义块应作要素检验,哪些应作全局检验,软件是心中有数的。心中有数是成功的主观保障,心中无数是失败的主观根源。做任何事情都是这样,句类检验也不例外。对于需要进行全局检验的语义块,又一次遇到动词是正常现象,没有又一次遇到反而是不正常现象。因此,何惧汉语句子里的多动词现象?对Eg之外的动词在局部范围进行句类分析就是了。HNC把处理策略挂在嘴边,为什么?因为,策略不明,寸步难行;策略洞明,迷雾消清。

那么,全局检验(也叫局部句类分析)就没有难点了么?当然不是。它会面临整句句类分析同样的所有难点,当然也可以运用同样的知识、按照同样的策略和步骤去进行处理。也就是说,在句蜕块内部将出现句类分析三部曲的小循环,甚至这个小循环里又嵌套着另一个更小的循环。这就是1.7节所说的7-7号难点。

这个大小循环的思路本身并无新意,传统句法分析也具有这一思路。差别在于两点。第一,句类分析为从大循环转向小循环提供了足够的预期知识,而传统句法分析离这一目标还有很大的距离,庞大的句法树库计划就是为了这一目标而制定的,但我很怀疑它的可实现度。第二,句类分析可以为各类、各级句类检验提供统一的多层面的有效预期知识,而句法分析依然处于痛苦的探索时期,对大规模真实语料词语共现频度统计的过分依赖实际上就是这种痛苦的具体表现。

本节最后,应该说明的是,就句蜕处理本身来说,其难点仅在于:第一,句蜕块包装的辨认,特别是多重包装的辨认,第四类常规句蜕也可以纳入包装的范畴。第二,变形句蜕的处理,这也许需要暂时列入有所不为。但是,就语义块构成来说,句蜕现象几乎无所不在,它不仅可以出现在JK、fK的任何部分,甚至可以以广义QE的形式出现。这些难点已不完全属于句蜕的范畴了。

本节的思考题是:为什么在1.2节里对[structure1]没有考虑E~JK1检验?如何加以补充?