一、句类分析难点7

1.7 复杂JK构成难点(7号难点,标记:J*3)

所谓复杂的句子,实质上都是多个结构简明的基本句子的集成,而基本句子无非就是基本和混合句类。复杂的主要表现是复杂的JK构成。因此,对复杂句子的分析和理解,关键的一步就是复杂语义块的构成分析,也可以叫做复杂句的还原处理:就是把复杂的句子还原成集成的简明集成单元。如果你对这一段话感到难以理解,不要紧,后面会有通俗易懂的示例说明。

所谓复杂JK构成,指下列7种基本类型:

※1同类型要素多项并列(要素并列)

※2要素的多层(嵌套)或/和多项(并列)修饰

※3语义块=常规句蜕块

※4语义块=伴随分离、转换或块并合现象的变形句蜕块

※5语义块的一部分(即语义块的要素或其修饰)=句蜕块

※6语义块=句蜕块嵌套

※7语义块的一部分(即语义块的要素或其修饰)=句蜕块嵌套

上列7种复杂JK构成,统称7号难点,其不同类型将分别记为7-m号难点。显然,7-3、7-4号难点可分流到9号难点,7-1的多数情况并不构成难点,因为文字文本的标点符号就往往给出了足够的信息。关于难点的上述表示可用于各号难点,这些表示符号完备之日,才是难点分析大功告成之时,这是需要各组、特别是理论组共同努力的。

这个清单又是HNC独特思考方式的体现,站在句类表示式和句类分析的立场,你很容易联想起这个清单,这是一个非常简明的演绎过程。这个清单本身就是一位理性法官,倚仗它去考察语言现象就比单纯的统计或归纳更有效率了。这个清单不能仅仅看作是问题清单,也蕴涵着解决问题的基本思路,那就是句蜕块的概念。其中的常规句蜕块指早已定义的4种句蜕形式,这4种形式还可能出现分离或转换现象,这就是第四种类型,后面3种类型里的句蜕块包括常规句蜕或变形句蜕。

本文引言中说:

HNC联合攻关组在语音文本战线鏖战了太长的时间,我一直为此事深感不安。因为,针对语音文本必须回避(即有所不为)的一些难点对于文字文本是不能回避的,而句类分析有希望予以解决,从而打开自然语言理解处理的新局面。

现在可以说得更明白一点,我最深感不安的就是复杂JK构成,在所谓"语音文本必须回避、文字文本不能回避、句类分析有希望予以解决"的难点中,7号难点的前5项应列为重中之重,急所中的急所。按预定计划,将委托一位博士后作专门研究。

本节最后,看一段语料。

邓小平同志是我党我军我国各族人民公认的享有崇高威望的卓越领导人,伟大的马克思主义者,伟大的无产阶级革命家、政治家、军事家、外交家,久经考验的共产主义战士,我国社会主义改革开放和现代化建设的总设计师,建设有中国特色社会主义理论的创立者。

这是邓小平先生逝世时国家讣文的第二段,共6个语串,没有插入语fFK。对这6个语串可以有两种看法或分析方法:一是把6个语串看成6个句子,第一个句子是一个是否判断句jDJ,随后的5个句子继承第一个句子的DB和jD,都是省略DB和jD的(!31,!30)jDJ句子;二是把6个语串看成一个句子jDJ,这个jDJ拥有6个并列的DC,即

DC=∑DCm, m=1~6

这两种看法或分析方法具有同等的理解效果,两种看法的后5个语段都归属于同一jDJ的DC,是典型的两可。从汉语传统来说,取第一种看法比较符合汉语的语情,但从语言的发展来说,第二种看法更便于与印欧语系接轨,因而我倾向于采用第二种看法。

这里顺便说一下语义块表示式中的两种数字表示方式。一是与大写英语字母并列的数字:在特征语义块字母后面的代表基本句类的子类;在广义对象语义块基元(A、B、C)后面的代表语义块的对仗特征。二是下标数字,代表语义块、要素或块素的序列特征。由于所用计算机运行环境的限制,下标数字不能直接键入,造成现有文本将绝大多数下标数字误记为并列数字,后患极为严重。今后不能容许再出现这样的错误,黄元敬要对此严肃负责,也有劳大家密切注意。

回到上面例句的分析。

第一语串是一个自足的是否判断句,其DC两次出现7-5号难点,并同时出现7-2号难点,整个语串还存在5-4号难点,因而是13号难点的典型表现。下面进行详细讨论。

先讨论两个7-5号难点。

第一个7-5号难点是“我党我军我国各族人民公认(的)”,第二个7-5号难点是“享有崇高威望(的)”。其激活因子分别是动词“公认”和“享有”。为什么这两个动词是7号难点的激活因子?首先是因为它们前面已经出现了是否判断句的特征语义块“是”,其次是在“公认”与“享有”之间出现了激活标记“的”。但是,仅仅指出这两点是远远不够的,还要进一步追问:对这两个激活条件如何给出一般表述形式?它们是否必须同时具备?

第一个条件的实质是对全局特征语义块Eg的确认,第二个条件的实质是对局部特征语义块El的确认。HNC已为两者的确认制定了十分详尽的策略(见《专著》的‘论题’1~5)。这两个条件不需要同时具备,只需要其中之一。两者同时具备时产生相互加强的效果,使理解处理的置信度更高。两者都不存在时只能依次进行句类假设与检验,在1.13节中将对此作进一步地阐述,这里建议读者思考一个问题,如果第一语段中的“公认”与“享有”之间不是“的”而是“并”,是否影响Eg的确认?

第二个7-5号难点“享有崇高威望(的)”与其随后的“卓越领导人”一起构成1.2节中所阐述的[structure1],并满足[structure1-1]条件。在确知这些结构([structure1])里的动词是El时,它们就一定是句蜕块的基本构件,需要进一步进行句蜕类型的判定,这将在1.9节阐述。这里需要着重说明的是“卓越领导人”的3重角色。首先,它是jDJ的符合DB~DC预期要求的DC;其次,它是以“享有”为核心的[structure1]的FKH;第三,它是以“公认”为局部特征语义块的句蜕块的构成部分之一。“卓越领导人”的这一3重角色可以从该语串的分解看得更清楚,这个复杂的语串实际上是下列3个句子的集成。

※邓小平同志是卓越领导人。

※邓小平同志享有崇高威望。

※邓小平同志是我党我军我国各族人民公认的卓越领导人。

其中的第三个句子是“我党我军我国各族人民公认邓小平同志是卓越领导人”这一块扩判断句的(jD,D)转换形式。集成与还原都需要制定详尽的规则,也不难制定详尽的规则,但这不是本文的任务。为什么不难?因为我们已经拥有基本句类的完备表示式和混合句类的完备生成规则,拥有完备的句类格式知识,拥有日益完善的句类知识、动词和体词的HNC预期知识,拥有一整套行之有效的自然语言理解处理策略。HNC的根本优势就在这里,读者能理解否!

把上列3个基本句子集成后的第一语串是具有复杂DC构成的是否判断句,其DC要素为“卓越领导人”。它前面有两项并列要素说明--“我党我军我国各族人民公认的”和“享有崇高威望的”,因而它同时具有7-2号难点。第一项要素说明又是块扩判断句的(jD,D)转换形式,故整个语串还存在5-4号难点。

语料的第二、第三和第四语串,在上述语义块并列知识的引导下,情况比较简单,不用说明。

语料的第五和第六语串都呈现出十分复杂的情况。第五语串的动词“改革开放”和“建设”,由于两者之间存在“和”和“建设”后面存在“的”,它们的Eg资格立即被取消,也不纳入2号难点,在分析时就当做“总设计师”的修饰成分来处理,但英译时要进行比较复杂的语义块构成变换处理。第六语串形式上是[structure1],但检验结果将表明它不是[structure1],因为FKQ、FKH都不满足E~JK2的预期要求,是7-2号难点与7-5号难点的综合表现。这种结构在1.2节未予讨论,拟暂时纳入有所不为。

本节最后,给读者留下一道习题。“当前的日本就像一艘遭到破坏的船”是什么句类?存在什么类型的难点?